[TEST] 평가셋 v0 + 회귀 테스트 러너 v0

## 기능 설명
고정된 입력(평가셋 v0)을 기반으로 구조화 결과/태그/RequirementState/Event I/O 계약이 회귀로 깨지지 않는지 자동 검증한다.
또한, API 연동 전 단계에서도 실행 규모를 추적할 수 있도록 `usage_metrics`를 기록한다.

## 작업 상세 내용
- [x] 평가셋 v0 포맷 정의
  - 케이스 단위: `case_id`, `input`(텍스트 또는 structuring 입력), `expected`(최소 계약: RequirementState, event_io.policy 등)
  - 기대값은 "법적 판단"이 아니라 계약/상태/사유코드 수준으로만 고정
- [x] 회귀 테스트 러너 v0 구현
  - `scripts/run_eval_v0.py` (또는 동등 스크립트)로 평가셋 일괄 실행
  - 출력: 케이스별 `pass|warn|fail`, `reason_codes`, 주요 산출물 요약
- [x] usage_metrics 로깅(v0)
  - 케이스별: `duration_ms`, `input_chars`, `output_chars`(가능한 범위), `cache_hit`(가능한 범위
  - 토큰/비용 필드는 optional로 두고 API 연동 후 채움: `prompt_tokens`, `completion_tokens`, `total_tokens`, `estimated_cost`
- [x] CI/로컬 실행 방식 정리
  - 로컬 실행 명려 1개 고정
  - CI는 스모크 평가셋만 실행: `eval_smoke_v0`만 CI에서 돌리고, 전체(`eval_full_v0`)는 로컬/수동 실행으로 운영

## 참고사항 (선택)
- Non-goals: 법적 판단/의미 해석 추가, LLM API 연동, 비용 산정 정확도 확보
- 원칙: 실패 유형 수집(reason_codes)과 근거 재현 가능성 유지

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[TEST] 평가셋 v0 + 회귀 테스트 러너 v0 #37

기능 설명

작업 상세 내용

참고사항 (선택)

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[TEST] 평가셋 v0 + 회귀 테스트 러너 v0 #37

Description

기능 설명

작업 상세 내용

참고사항 (선택)

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions