Skip to content

[FEAT][#41]: OCRResult 변환 기능 및 자동화 테스트 구현#42

Merged
YUDINDIN1005 merged 4 commits intomainfrom
feat/41-ocr
Feb 22, 2026
Merged

[FEAT][#41]: OCRResult 변환 기능 및 자동화 테스트 구현#42
YUDINDIN1005 merged 4 commits intomainfrom
feat/41-ocr

Conversation

@YUDINDIN1005
Copy link
Contributor

작업 내용

  • OCR 입력/출력 구조 및 segments 정의
  • 줄바꿈/페이지 분절/인식 오류 처리 규칙 설계
  • StructuringInput 등 OCR 연동 타입/필드 수정
  • 실제 이미지 기반 OCR 자동화 테스트 코드 추가
  • 테스트 엔진으로 무료 Tesseract 사용 (한글 인식률 한계 있음)

이슈 번호

#41

스크린샷

image

pytest 결과: 무료 엔진 특성상 일부 텍스트가 깨질 수 있으나, 전체적으로 OCR 결과가 잘 추출됨을 확인했습니다.

현재 segment의 page, line, start, end 값이 모두 None인 이유는, 무료 엔진인 Tesseract에서는 텍스트만 뽑아오고 위치 정보는 따로 제공하지 않기 때문입니다.
실제 서비스에서는 네이버 클로바 OCR(유료) 등 더 정확한 엔진을 쓸 예정이라, 지금은 테스트 목적에 맞게 최소한의 정보만 추출하도록 구현했습니다.
추후 필요하면 위치 정보 등도 추가로 파싱해서 넣을 수 있습니다.

추가 안내

  • 다음 이슈에서는 OCRResult → 구조화(StructuringInput) 파이프라인 연동 및 후처리 자동화를 이어서 진행할 예정입니다.
  • 현재 OCR 엔진은 무료 Tesseract를 사용하고 있으나, 추후에는 한글 인식률이 더 우수한 네이버 클로바 OCR(유료)로 교체할 계획입니다.

@YUDINDIN1005 YUDINDIN1005 self-assigned this Feb 22, 2026
@YUDINDIN1005 YUDINDIN1005 added the FEAT 새로운 기능 구현 label Feb 22, 2026
@YUDINDIN1005 YUDINDIN1005 linked an issue Feb 22, 2026 that may be closed by this pull request
4 tasks
@YUDINDIN1005 YUDINDIN1005 merged commit 1834813 into main Feb 22, 2026
0 of 2 checks passed
@YUDINDIN1005 YUDINDIN1005 deleted the feat/41-ocr branch February 22, 2026 07:55
@YUDINDIN1005 YUDINDIN1005 restored the feat/41-ocr branch February 23, 2026 12:03
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

FEAT 새로운 기능 구현

Projects

None yet

Development

Successfully merging this pull request may close these issues.

[MAIN] OCR 전처리/segments/평가셋 확정

1 participant