-
Notifications
You must be signed in to change notification settings - Fork 0
Closed
Labels
EXPERIMENT품질 실험, 실패 케이스 수집, 비교 테스트품질 실험, 실패 케이스 수집, 비교 테스트TEST테스트 코드, 평가셋, 회귀 테스트테스트 코드, 평가셋, 회귀 테스트
Description
기능 설명
고정된 입력(평가셋 v0)을 기반으로 구조화 결과/태그/RequirementState/Event I/O 계약이 회귀로 깨지지 않는지 자동 검증한다.
또한, API 연동 전 단계에서도 실행 규모를 추적할 수 있도록 usage_metrics를 기록한다.
작업 상세 내용
- 평가셋 v0 포맷 정의
- 케이스 단위:
case_id,input(텍스트 또는 structuring 입력),expected(최소 계약: RequirementState, event_io.policy 등) - 기대값은 "법적 판단"이 아니라 계약/상태/사유코드 수준으로만 고정
- 케이스 단위:
- 회귀 테스트 러너 v0 구현
scripts/run_eval_v0.py(또는 동등 스크립트)로 평가셋 일괄 실행- 출력: 케이스별
pass|warn|fail,reason_codes, 주요 산출물 요약
- usage_metrics 로깅(v0)
- 케이스별:
duration_ms,input_chars,output_chars(가능한 범위),cache_hit(가능한 범위 - 토큰/비용 필드는 optional로 두고 API 연동 후 채움:
prompt_tokens,completion_tokens,total_tokens,estimated_cost
- 케이스별:
- CI/로컬 실행 방식 정리
- 로컬 실행 명려 1개 고정
- CI는 스모크 평가셋만 실행:
eval_smoke_v0만 CI에서 돌리고, 전체(eval_full_v0)는 로컬/수동 실행으로 운영
참고사항 (선택)
- Non-goals: 법적 판단/의미 해석 추가, LLM API 연동, 비용 산정 정확도 확보
- 원칙: 실패 유형 수집(reason_codes)과 근거 재현 가능성 유지
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
EXPERIMENT품질 실험, 실패 케이스 수집, 비교 테스트품질 실험, 실패 케이스 수집, 비교 테스트TEST테스트 코드, 평가셋, 회귀 테스트테스트 코드, 평가셋, 회귀 테스트