각 회의 및 TA 미팅 내용을 기록하고 공유하는 공간입니다.
진행된 날짜별로 회의록 작성을 완료하거나, 작성 예정 여부를 표시합니다.
| ✅ | 회의 차수 | 날짜 | 내용 | 다음 회의까지 준비사항 |
|---|---|---|---|---|
| ✅ | 1차 회의 | 2025년 3월 19일 | - 다양한 크롤링 아이디어 회의, 그 중 프로젝트 주제 후보 : e-commerce, 뉴스, SNS, 부동산, 블로그, 금융 주식, NETFLIX 영화 | 노션 주제들 투표 참여하기 |
| ✅ | 2차 회의 | 2025년 3월 30일 | 가장 추천이 많았던 지도, SNS를 어떻게 활용할까에 대한 아이디어 제시 토표 진행 결론: 전국 지역축제/대학축제/행사 리뷰 기반 문화 지도 프로젝트 요약: - 문화체육관광부, 네이버 지역 행사, 지자체 홈페이지 등에서 축제/행사 정보 및 후기를 크롤링 → 분석 및 시각화 - 계절별 인기 축제/행사 지도 - 후기 감성 분석, 트렌드 분석 - 문화 유형별 클러스터링 (ex: 전통, 가족, 젊은층 등) - 대학축제 (어떻게 정보 수집할지가 관건) TODO: |
크롤링 대상 사이트, 리뷰 대상 사이트 조사하기 |
| ✅ | 3차 회의 | 2025년 4월 2일 | TA 발표 준비 내용 공유 프로젝트 주제: 전국 축제 정보를 크롤링하여 데이터 수집 및 분석 - 축제명, 날짜, 위치, 포스터 이미지, 프로그램, 리뷰 등 수집 - 리뷰는 가능한 많이 수집하여 감성 분석 및 키워드 분석에 활용 데이터 분석 및 시각화 방향: - 포스터 이미지 색상 추출 및 시각화 - 연령대별 선호 축제 분석 (워드클라우드 + 지도 시각화) - 지도 기반 축제 분포 시각화 (folium/plotly 활용) - 리뷰 감성 분석 → 긍정/부정 키워드 분석 및 이유 파악 추가 논의: - 정보 수집 사이트는 1~2개로 한정 (전국 기준) - 수집한 데이터는 DB에 저장 후 API로 활용 예정 |
네이버지도 리뷰, 블로그 리뷰 어떻게 크롤링하는지 찾아오기 |
| ✅ | 4차 회의 | 2025년 4월 4일 | 문체부 축제 정보 수집 및 크롤링 전략 논의 0. 문체부 자료 전처리 - "2025년 지역축제 개최계획 현황" 엑셀 파일 다운로드 - 1회성 자료는 전처리 후 DB에 이관 1. 크롤링 전략 수립 ① 네이버 블로그에서 축제명을 검색해 블로그 링크 수집 및 DB 저장 ② 각 블로그 링크에 접속해 글 전문 + 대표 이미지 1개씩 크롤링 후 DB 저장 |
크롤링 기법 겹치지 않도록 정해서, 시간 측정, 효율 등 측정 |
| ✅ | 5차 회의 | 2025년 4월 6일 | 네이버 블로그/카페 API를 사용해서 해당 축제명에 관련된 API 리스트를 가져옴 -> URL을 for문 을 돌면서 크롤링 함(플레이라이트로 진행, 실제로 비교, 빠름). | 크롤링 진행하기 |
| 5.5차 회의 | 2025년 4월 9일 | 크롤링 정확도 및 효율성 문제 제기 문제 상황: - 축제명을 기준으로 네이버 API를 통해 블로그/카페 글을 수집했으나, 실제로 관련된 글이 거의 없음 - 예: "여의도 벚꽃 축제"를 검색했을 때, 제목에 일부 단어만 포함된 무관한 글도 다수 포함됨 실제 사용 가능한 데이터: - 전체 수집 중 실제로 분석 가능한 리뷰는 약 10% - 1000개를 수집하려면 약 ⏱️ 7시간 이상 소요됨 결론: - 현재 방식으로는 시간 대비 효율이 매우 낮음 - 관련도 높은 리뷰를 선별하는 방식 개선 또는 사전 필터링 방안 필요 |
회의 필요 | |
| ✅ | 6차 회의 | 2025년 4월 9일 | 크롤링 대상 축제 선정 기준 변경 논의 기존 방식: - 서울/경기권 축제를 대상으로 네이버 블로그·카페 글 전체 크롤링 - 문제: 데이터 편차 심각 (카페 접근 제한, 게시글 수 2~1000개 수준) - 의미 있는 축제(예: 해운대 빛 축제 등)에 대한 분석 어려움 해결 방안: - 단순 지역 기준이 아닌, 전년도 방문자 수 기준 상위 60개 축제 선별 - 해당 축제를 대상으로 블로그·카페 크롤링 진행 기대 효과: - 많은 방문자가 있는 축제일수록 리뷰·콘텐츠도 풍부 - 감성 분석/키워드 분석의 신뢰도 향상 - 전국적으로 의미 있는 축제 중심의 분석 가능 - 후기 기반으로 축제 만족도 분석, 이슈 키워드, 지역별 인기 요소 도출 등 추가 확장 가능 |
각각 맡은 10개의 축제에 대한 카페, 블로그 크롤링 마치기. |
| 💡 | 5.5차 회의 해결 | 2025년 4월 10일 | 6차 회의 논의 + 필터링 함수 적용으로 크롤링 정확도 개선 개선점: - 제목 또는 요약에 정확히 "여의도 벚꽃 축제"를 포함하는 경우만 크롤링하도록 필터링 함수 생성 결과: - 의미 없는 무관한 글 대폭 제거 - 크롤링 품질 개선 확인됨 |
함수 적용해서 각각 맡은 10개의 축제에 대한 카페, 블로그 크롤링 마치기. |
| ✅ | - | 2025년 4월 11일 | 코랩 프로 플러스이지만, GPU 쓰면 오히려 느리다. - GPU는 딥러닝/행렬 연산 가속용이기에, 웹 크롤링 툴은 브라우저 렌더링 + 네트워크 요청 중심이기에 GPU를 사용하지 않음. 크롤링은 CPU/메모리 의존이 높은데, GPU 환경에선 이게 더 낮게 할당될 수 있음. | |
| ✅ | 7차 회의 | 2025년 4월 14일 | raw data DB 저장, 그리고 모든 데이터 전처리, DB 저장등은 다음주에 자동화 예정 파일 형태의 JSON의 raw 데이터를 전처리 카페 블로그 다르게 전처리(카페는 댓글 중심, 블로그는 본문) 단순 축제 정보글 제외하기 감성분석(장단점), 키워드 추출 |
각각 맡은 카페/블로그 1~3 을 위의 방법을 사용해서 자동화 코드 만들기. |
| 🔲 | 8차 회의 | 2025년 4월 16일 | raw data DB 저장, 그리고 모든 데이터 전처리, DB 저장등은 다음주에 자동화 예정 파일 형태의 JSON의 raw 데이터를 전처리 카페 블로그 다르게 전처리(카페는 댓글 중심, 블로그는 본문) 단순 축제 정보글 제외하기 감성분석(장단점), 키워드 추출 |
데이터 작업 - 축제 3개 선정 후 raw 데이터 DB 저장 - 전처리 코드 통일 (시연용 / 전체용) - 전처리 결과 DB 저장 및 JSON 파일 업로드 - (가능시) 크롤링 → raw 저장 → 전처리 → 전처리 저장까지 전체 자동화 코드 통합 분석 작업 이한나: 감성 분석 - 문장 단위 분리 후 감정 없는 문장 제거 - 긍/부정 분류 저장 현서님: 긍·부정 키워드 추출 - 감성 분류 결과 기반 주요 키워드 추출 |
| 🔲 | 9차 회의 | 2025년 4월 14일 | 작성예정 | |
| 🔲 | 10차 회의 | 2025년 4월 14일 | 작성예정 |
| ✅ | 미팅 차수 | 날짜 | 내용 |
|---|---|---|---|
| ⭕ | 1차 TA 미팅 | 2025년 4월 4일 | - 분석 집중 X , 크롤링을 어떻게 많은 데이터를 효과적으로 할 것인가? 그리고 raw data를 어떻게 디비에 넣고, 전처리를 해서, 분석하기 좋은 자료를 만드는가? 에 대해서 집중. |
⭕ : 작성 예정 / 🔲 : 예정됨 or 미정
✍️ 회의록이 완료되면 ⭕를 ✅로 바꿔주세요!
[1. Raw 저장 완료]
↓
[2. 데이터 전처리] → 정제, 토크나이징, 불용어 제거
↓
[3. 메타데이터 추출] → 감성, 키워드, 토픽 등
↓
[4. 구조화된 형태로 저장] (요약 테이블 or Elasticsearch)
↓
[5. 시각화 or 추천 시스템]
키워드 추출, 감성 분석
후기 기반 감성 분석 / 운영자 측 피드백 제공 / 사용자에게 맞춤형 축제 정보 제공
| 항목 | 설명 | 처리 방법 |
|---|---|---|
| 본문 텍스트 | HTML 태그 제거, 정제 | BeautifulSoup, 정규표현식 등 |
| 문장 단위 분할 | 감정 분석/요약에 필요 | nltk, konlpy, soynlp 등 |
| 형태소 분석 / 키워드 추출 | 의미 있는 단어 추출 | Okt, Komoran, KeyBERT 등 |
| 감정 분석 | 긍/부정/중립 분류 | 감성 사전 기반 or AI 모델 |
| 작성 시각 | 시간대 분석 | post_date 기준 변환 |
| 글 길이 | 정보량 지표 | len(content) |
현재 DynamoDB 유력, 디비 테이블 구조는 추후 결정
| 필드 | 내용 |
|---|---|
postId |
원본 ID |
platform |
cafe/blog |
keywords |
["봄꽃", "벚꽃", "여의도"] |
sentiment |
positive / negative / neutral |
topic |
여행 / 음식 / 사회 등 (LDA or 클러스터링) |
summary |
핵심 요약 (선택) |
word_count |
본문 단어 수 |
created_at |
크롤링 시각 |
- 매일/주간 단위로 등장 빈도 상위 키워드 추출 (
TF,TF-IDF) - 키워드 간 동시 출현 → 연관어 분석
- 긍/부정 비율
- 플랫폼별 감정 차이 비교
- 글 내용을 N개 토픽으로 군집화
- 각 토픽에서 대표 단어 추출
- 여의도, 석촌호수 등 장소 이름 빈도
- 장소별 감정 분석 (예: 여의도 벚꽃 축제 → 부정 감정 ↑?)