Skip to content

[FEAT][#37]: Eval(regression) v0 추가 및 CI smoke 연동#38

Merged
YUDINDIN1005 merged 10 commits intomainfrom
feat/37-eval-v0
Feb 12, 2026
Merged

[FEAT][#37]: Eval(regression) v0 추가 및 CI smoke 연동#38
YUDINDIN1005 merged 10 commits intomainfrom
feat/37-eval-v0

Conversation

@YUDINDIN1005
Copy link
Contributor

@YUDINDIN1005 YUDINDIN1005 commented Feb 12, 2026

작업 내용

  • 고정 입력(평가셋 v0) 기반의 회귀 검증 러너(v0) 추가:
    • 케이스별 PASS|WARN|FAIL, reason_codes 비교
  • 실행 규모 추적을 위한 usage_metrics
    • v0: duration_ms, input_chars, output_chars, cache_hit 기록/출력 및 jsonl 저장 지원
  • CI에서는 smoke 스위트만 실행하도록 연결(전체 full은 로컬/수동 실행)
  • EvidenceAnchor 스키마 정합 수정
    • evidence_anchormodality 포함하도록 보정 + 관련 테스트 갱신

이슈 번호

#37

스크린샷 (선택)

N/A

@YUDINDIN1005 YUDINDIN1005 self-assigned this Feb 12, 2026
@YUDINDIN1005 YUDINDIN1005 added EXPERIMENT 품질 실험, 실패 케이스 수집, 비교 테스트 TEST 테스트 코드, 평가셋, 회귀 테스트 labels Feb 12, 2026
@YUDINDIN1005 YUDINDIN1005 linked an issue Feb 12, 2026 that may be closed by this pull request
4 tasks
@YUDINDIN1005 YUDINDIN1005 merged commit 8887b2b into main Feb 12, 2026
2 checks passed
@YUDINDIN1005 YUDINDIN1005 deleted the feat/37-eval-v0 branch February 12, 2026 10:00
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

EXPERIMENT 품질 실험, 실패 케이스 수집, 비교 테스트 TEST 테스트 코드, 평가셋, 회귀 테스트

Projects

None yet

Development

Successfully merging this pull request may close these issues.

[TEST] 평가셋 v0 + 회귀 테스트 러너 v0

1 participant