Skip to content

[TEST] 평가셋 v0 + 회귀 테스트 러너 v0 #37

@YUDINDIN1005

Description

@YUDINDIN1005

기능 설명

고정된 입력(평가셋 v0)을 기반으로 구조화 결과/태그/RequirementState/Event I/O 계약이 회귀로 깨지지 않는지 자동 검증한다.
또한, API 연동 전 단계에서도 실행 규모를 추적할 수 있도록 usage_metrics를 기록한다.

작업 상세 내용

  • 평가셋 v0 포맷 정의
    • 케이스 단위: case_id, input(텍스트 또는 structuring 입력), expected(최소 계약: RequirementState, event_io.policy 등)
    • 기대값은 "법적 판단"이 아니라 계약/상태/사유코드 수준으로만 고정
  • 회귀 테스트 러너 v0 구현
    • scripts/run_eval_v0.py (또는 동등 스크립트)로 평가셋 일괄 실행
    • 출력: 케이스별 pass|warn|fail, reason_codes, 주요 산출물 요약
  • usage_metrics 로깅(v0)
    • 케이스별: duration_ms, input_chars, output_chars(가능한 범위), cache_hit(가능한 범위
    • 토큰/비용 필드는 optional로 두고 API 연동 후 채움: prompt_tokens, completion_tokens, total_tokens, estimated_cost
  • CI/로컬 실행 방식 정리
    • 로컬 실행 명려 1개 고정
    • CI는 스모크 평가셋만 실행: eval_smoke_v0만 CI에서 돌리고, 전체(eval_full_v0)는 로컬/수동 실행으로 운영

참고사항 (선택)

  • Non-goals: 법적 판단/의미 해석 추가, LLM API 연동, 비용 산정 정확도 확보
  • 원칙: 실패 유형 수집(reason_codes)과 근거 재현 가능성 유지

Metadata

Metadata

Assignees

Labels

EXPERIMENT품질 실험, 실패 케이스 수집, 비교 테스트TEST테스트 코드, 평가셋, 회귀 테스트

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions