Project_Festival

📘 회의록 & TA 미팅 정리

각 회의 및 TA 미팅 내용을 기록하고 공유하는 공간입니다.
진행된 날짜별로 회의록 작성을 완료하거나, 작성 예정 여부를 표시합니다.

🗓️ 회의록 기록

✅	회의 차수	날짜	내용	다음 회의까지 준비사항
✅	1차 회의	2025년 3월 19일	- 다양한 크롤링 아이디어 회의, 그 중 프로젝트 주제 후보 : e-commerce, 뉴스, SNS, 부동산, 블로그, 금융 주식, NETFLIX 영화	노션 주제들 투표 참여하기
✅	2차 회의	2025년 3월 30일	가장 추천이 많았던 지도, SNS를 어떻게 활용할까에 대한 아이디어 제시 토표 진행 결론: 전국 지역축제/대학축제/행사 리뷰 기반 문화 지도 프로젝트 요약: - 문화체육관광부, 네이버 지역 행사, 지자체 홈페이지 등에서 축제/행사 정보 및 후기를 크롤링 → 분석 및 시각화 - 계절별 인기 축제/행사 지도 - 후기 감성 분석, 트렌드 분석 - 문화 유형별 클러스터링 (ex: 전통, 가족, 젊은층 등) - 대학축제 (어떻게 정보 수집할지가 관건) TODO:	크롤링 대상 사이트, 리뷰 대상 사이트 조사하기
✅	3차 회의	2025년 4월 2일	TA 발표 준비 내용 공유 프로젝트 주제: 전국 축제 정보를 크롤링하여 데이터 수집 및 분석 - 축제명, 날짜, 위치, 포스터 이미지, 프로그램, 리뷰 등 수집 - 리뷰는 가능한 많이 수집하여 감성 분석 및 키워드 분석에 활용 데이터 분석 및 시각화 방향: - 포스터 이미지 색상 추출 및 시각화 - 연령대별 선호 축제 분석 (워드클라우드 + 지도 시각화) - 지도 기반 축제 분포 시각화 (folium/plotly 활용) - 리뷰 감성 분석 → 긍정/부정 키워드 분석 및 이유 파악 추가 논의: - 정보 수집 사이트는 1~2개로 한정 (전국 기준) - 수집한 데이터는 DB에 저장 후 API로 활용 예정	네이버지도 리뷰, 블로그 리뷰 어떻게 크롤링하는지 찾아오기
✅	4차 회의	2025년 4월 4일	문체부 축제 정보 수집 및 크롤링 전략 논의 0. 문체부 자료 전처리 - "2025년 지역축제 개최계획 현황" 엑셀 파일 다운로드 - 1회성 자료는 전처리 후 DB에 이관 1. 크롤링 전략 수립 ① 네이버 블로그에서 축제명을 검색해 블로그 링크 수집 및 DB 저장 ② 각 블로그 링크에 접속해 글 전문 + 대표 이미지 1개씩 크롤링 후 DB 저장	크롤링 기법 겹치지 않도록 정해서, 시간 측정, 효율 등 측정
✅	5차 회의	2025년 4월 6일	네이버 블로그/카페 API를 사용해서 해당 축제명에 관련된 API 리스트를 가져옴 -> URL을 for문 을 돌면서 크롤링 함(플레이라이트로 진행, 실제로 비교, 빠름).	크롤링 진행하기
⚠️	5.5차 회의	2025년 4월 9일	크롤링 정확도 및 효율성 문제 제기 문제 상황: - 축제명을 기준으로 네이버 API를 통해 블로그/카페 글을 수집했으나, 실제로 관련된 글이 거의 없음 - 예: "여의도 벚꽃 축제"를 검색했을 때, 제목에 일부 단어만 포함된 무관한 글도 다수 포함됨 실제 사용 가능한 데이터: - 전체 수집 중 실제로 분석 가능한 리뷰는 약 10% - 1000개를 수집하려면 약 ⏱️ 7시간 이상 소요됨 결론: - 현재 방식으로는 시간 대비 효율이 매우 낮음 - 관련도 높은 리뷰를 선별하는 방식 개선 또는 사전 필터링 방안 필요	회의 필요
✅	6차 회의	2025년 4월 9일	크롤링 대상 축제 선정 기준 변경 논의 기존 방식: - 서울/경기권 축제를 대상으로 네이버 블로그·카페 글 전체 크롤링 - 문제: 데이터 편차 심각 (카페 접근 제한, 게시글 수 2~1000개 수준) - 의미 있는 축제(예: 해운대 빛 축제 등)에 대한 분석 어려움 해결 방안: - 단순 지역 기준이 아닌, 전년도 방문자 수 기준 상위 60개 축제 선별 - 해당 축제를 대상으로 블로그·카페 크롤링 진행 기대 효과: - 많은 방문자가 있는 축제일수록 리뷰·콘텐츠도 풍부 - 감성 분석/키워드 분석의 신뢰도 향상 - 전국적으로 의미 있는 축제 중심의 분석 가능 - 후기 기반으로 축제 만족도 분석, 이슈 키워드, 지역별 인기 요소 도출 등 추가 확장 가능	각각 맡은 10개의 축제에 대한 카페, 블로그 크롤링 마치기.
💡	5.5차 회의 해결	2025년 4월 10일	6차 회의 논의 + 필터링 함수 적용으로 크롤링 정확도 개선 개선점: - 제목 또는 요약에 정확히 "여의도 벚꽃 축제"를 포함하는 경우만 크롤링하도록 필터링 함수 생성 결과: - 의미 없는 무관한 글 대폭 제거 - 크롤링 품질 개선 확인됨	함수 적용해서 각각 맡은 10개의 축제에 대한 카페, 블로그 크롤링 마치기.
✅	-	2025년 4월 11일	코랩 프로 플러스이지만, GPU 쓰면 오히려 느리다. - GPU는 딥러닝/행렬 연산 가속용이기에, 웹 크롤링 툴은 브라우저 렌더링 + 네트워크 요청 중심이기에 GPU를 사용하지 않음. 크롤링은 CPU/메모리 의존이 높은데, GPU 환경에선 이게 더 낮게 할당될 수 있음.
✅	7차 회의	2025년 4월 14일	raw data DB 저장, 그리고 모든 데이터 전처리, DB 저장등은 다음주에 자동화 예정 파일 형태의 JSON의 raw 데이터를 전처리 카페 블로그 다르게 전처리(카페는 댓글 중심, 블로그는 본문) 단순 축제 정보글 제외하기 감성분석(장단점), 키워드 추출	각각 맡은 카페/블로그 1~3 을 위의 방법을 사용해서 자동화 코드 만들기.
🔲	8차 회의	2025년 4월 16일	raw data DB 저장, 그리고 모든 데이터 전처리, DB 저장등은 다음주에 자동화 예정 파일 형태의 JSON의 raw 데이터를 전처리 카페 블로그 다르게 전처리(카페는 댓글 중심, 블로그는 본문) 단순 축제 정보글 제외하기 감성분석(장단점), 키워드 추출	데이터 작업 - 축제 3개 선정 후 raw 데이터 DB 저장 - 전처리 코드 통일 (시연용 / 전체용) - 전처리 결과 DB 저장 및 JSON 파일 업로드 - (가능시) 크롤링 → raw 저장 → 전처리 → 전처리 저장까지 전체 자동화 코드 통합 분석 작업 이한나: 감성 분석 - 문장 단위 분리 후 감정 없는 문장 제거 - 긍/부정 분류 저장 현서님: 긍·부정 키워드 추출 - 감성 분류 결과 기반 주요 키워드 추출
🔲	9차 회의	2025년 4월 14일	작성예정
🔲	10차 회의	2025년 4월 14일	작성예정

🎓 TA 미팅 기록

✅	미팅 차수	날짜	내용
⭕	1차 TA 미팅	2025년 4월 4일	- 분석 집중 X , 크롤링을 어떻게 많은 데이터를 효과적으로 할 것인가? 그리고 raw data를 어떻게 디비에 넣고, 전처리를 해서, 분석하기 좋은 자료를 만드는가? 에 대해서 집중.

⭕ : 작성 예정 / 🔲 : 예정됨 or 미정
✍️ 회의록이 완료되면 ⭕를 ✅로 바꿔주세요!

✅ 0. 전체 플로우 요약

[1. Raw 저장 완료]
↓
[2. 데이터 전처리] → 정제, 토크나이징, 불용어 제거
↓
[3. 메타데이터 추출] → 감성, 키워드, 토픽 등
↓
[4. 구조화된 형태로 저장] (요약 테이블 or Elasticsearch)
↓
[5. 시각화 or 추천 시스템]

✅ 1. 분석 목적 설정

키워드 추출, 감성 분석

후기 기반 감성 분석 / 운영자 측 피드백 제공 / 사용자에게 맞춤형 축제 정보 제공

✅ 2. 전처리/가공: 분석 가능한 데이터로 만들기

필수적으로 파싱하거나 가공해야 할 요소: (참고 자료)

항목	설명	처리 방법
본문 텍스트	HTML 태그 제거, 정제	`BeautifulSoup`, 정규표현식 등
문장 단위 분할	감정 분석/요약에 필요	`nltk`, `konlpy`, `soynlp` 등
형태소 분석 / 키워드 추출	의미 있는 단어 추출	`Okt`, `Komoran`, `KeyBERT` 등
감정 분석	긍/부정/중립 분류	감성 사전 기반 or AI 모델
작성 시각	시간대 분석	`post_date` 기준 변환
글 길이	정보량 지표	`len(content)`

✅ 3. 분석 데이터 저장할 Database 결정

현재 DynamoDB 유력, 디비 테이블 구조는 추후 결정

✅ 4. 분석 데이터 저장

필드	내용
`postId`	원본 ID
`platform`	cafe/blog
`keywords`	`["봄꽃", "벚꽃", "여의도"]`
`sentiment`	positive / negative / neutral
`topic`	여행 / 음식 / 사회 등 (LDA or 클러스터링)
`summary`	핵심 요약 (선택)
`word_count`	본문 단어 수
`created_at`	크롤링 시각

✅ 5. 분석 방법 아이디어, 시각화 아이디어, 진행

📊 키워드 기반 트렌드 분석

매일/주간 단위로 등장 빈도 상위 키워드 추출 (TF, TF-IDF)
키워드 간 동시 출현 → 연관어 분석

💬 감정 분석

긍/부정 비율
플랫폼별 감정 차이 비교

🧠 토픽 모델링 (LDA 등)

글 내용을 N개 토픽으로 군집화
각 토픽에서 대표 단어 추출

📍 위치 기반 (가능한 경우)

여의도, 석촌호수 등 장소 이름 빈도
장소별 감정 분석 (예: 여의도 벚꽃 축제 → 부정 감정 ↑?)

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
Project_Festival		Project_Festival
Raw Data		Raw Data
2025년 지역축제 개최계획 현황(0321).xlsx		2025년 지역축제 개최계획 현황(0321).xlsx
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Project_Festival

📘 회의록 & TA 미팅 정리

🗓️ 회의록 기록

🎓 TA 미팅 기록

✅ 0. 전체 플로우 요약

✅ 1. 분석 목적 설정

✅ 2. 전처리/가공: 분석 가능한 데이터로 만들기

필수적으로 파싱하거나 가공해야 할 요소: (참고 자료)

✅ 3. 분석 데이터 저장할 Database 결정

✅ 4. 분석 데이터 저장

✅ 5. 분석 방법 아이디어, 시각화 아이디어, 진행

📊 키워드 기반 트렌드 분석

💬 감정 분석

🧠 토픽 모델링 (LDA 등)

📍 위치 기반 (가능한 경우)

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

3veryDay/Project_Festival

Folders and files

Latest commit

History

Repository files navigation

Project_Festival

📘 회의록 & TA 미팅 정리

🗓️ 회의록 기록

🎓 TA 미팅 기록

✅ 0. 전체 플로우 요약

✅ 1. 분석 목적 설정

✅ 2. 전처리/가공: 분석 가능한 데이터로 만들기

필수적으로 파싱하거나 가공해야 할 요소: (참고 자료)

✅ 3. 분석 데이터 저장할 Database 결정

✅ 4. 분석 데이터 저장

✅ 5. 분석 방법 아이디어, 시각화 아이디어, 진행

📊 키워드 기반 트렌드 분석

💬 감정 분석

🧠 토픽 모델링 (LDA 등)

📍 위치 기반 (가능한 경우)

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages