-
Notifications
You must be signed in to change notification settings - Fork 0
Description
현재 Build & Run 목표는 아래와 같습니다.
목표: 후보자 목록, 당선인 목록, 현역 의원 목록, 다양성 지표를 선거 별로 관리합니다.
- 후보자 목록: 지방선거/보궐선거의 예비후보자 명부가 공개되면 중앙선거관리위원회 웹페이지를 크롤링해 후보자 목록을 생성합니다.
- 당선인 목록: 지방선거/보궐선거가 끝나면 중앙선거관리위원회 선거 결과 API를 사용해 당선인 목록을 생성합니다.
- 현역 의원 목록: 매일 전국 기초의회 웹사이트의 현역 의원 페이지를 크롤링해 기존 당선인 목록과 비교하고, 변경 사항을 기존 당선인 정보에 추가합니다.
- 다양성 지표: 현역 의원 목록이 바뀔 때마다 다양성 지표를 새롭게 계산합니다. 각 기초의회 별 다양성 지표와 16개 광역자치단체 다양성 지표, 전국 다양성 지표를 함께 계산합니다.
이를 위해서는 적당한 시기마다 '바뀐 게 있나' 체크해 보고 또 선거결과 나오는 날에는 관심이 집중될 것이므로 바로 업데이트가 되면 좋습니다.
- 선것날을 미리 입력해서 그때마다 돌아가도록 할까요?
- 시기는 한 하루에 한번이면 너무 많을까요?
이런 내용 말고 더 논의할게 있을지 찾아 주시겠어요? 회의 때까지 부탁합니다~
참고자료로 노션의 '1 멘토링', '1 피드백'을 발췌합니다.
Q
현재 데이터 수집 계획은 웹 크롤링을 사용한다 하더라도 지역 의회마다 맞추어서 손으로 직접 하는 방식에 가깝습니다. 의회 주소 별 세팅을 하고 변화를 크롤링으로 업데이트 하더라도 사이트 주소나 형식이 바뀌는 것은 손으로 대응을 해주어야 합니다. 이 문제를 자동화하거나 전자동화하지 못하더라도 적절한 대안이 없을지 질문 드리고 싶습니다.
A
batch job을? (한달단위? ) 돌려주는게 현실적이다..
예시) 구글: batch job을 통해 사이트들을 인덱싱하지만, 필요한 경우 직접 크롤링을 실행함
Q
배치 작업을 통해 주기적으로 크롤링할 때 사용할 수 있는 기술 (깃헙 actions와 같이 설정하기 쉽고, 성공 여부를 알 수 있는 서비스가 있을까요?
A
CRON 잡 스케쥴링의 경우, 주기적으로 계속 호출되어야 하기 때문에 일단은 서버에서 실행이되면 좋을것 같습니다. (CRON job scheduling 검색 참조)
Github Actions 로 가능한 작업이면 이걸 쓰는게 가장 간단할것 같습니다
Metadata
Metadata
Assignees
Labels
Type
Projects
Status