Eval 데이터셋 설계
좋은 평가셋은 모델의 “실패를 잘 드러내는” 데이터셋입니다. 쉬운 샘플만 있으면 개선 여부를 판단할 수 없습니다.구성 원칙
| 원칙 | 설명 |
|---|---|
| 대표성 | 실제 사용자 요청 분포를 반영 |
| 난이도 균형 | 쉬움/보통/어려움 비율 관리 |
| 경계 사례 포함 | 모호한 질문, 긴 문서, 노이즈 입력 포함 |
| 버전 관리 | 평가셋 변경 이력과 이유 기록 |
권장 split
golden: 핵심 회귀 테스트용 고정 셋shadow: 신규 이슈 반영용 가변 셋canary: 배포 전 빠른 리스크 확인용 소형 셋
운영 팁
- 신규 장애 케이스를
shadow에 즉시 추가 - 분기마다
golden재검토 - 라벨 가이드를 유지해 평가자 편차 축소

