Skip to main content

Eval 데이터셋 설계

좋은 평가셋은 모델의 “실패를 잘 드러내는” 데이터셋입니다. 쉬운 샘플만 있으면 개선 여부를 판단할 수 없습니다.

구성 원칙

원칙설명
대표성실제 사용자 요청 분포를 반영
난이도 균형쉬움/보통/어려움 비율 관리
경계 사례 포함모호한 질문, 긴 문서, 노이즈 입력 포함
버전 관리평가셋 변경 이력과 이유 기록

권장 split

  • golden: 핵심 회귀 테스트용 고정 셋
  • shadow: 신규 이슈 반영용 가변 셋
  • canary: 배포 전 빠른 리스크 확인용 소형 셋

운영 팁

  • 신규 장애 케이스를 shadow에 즉시 추가
  • 분기마다 golden 재검토
  • 라벨 가이드를 유지해 평가자 편차 축소
평가셋은 커질수록 좋은 것이 아니라, “현재 제품 리스크를 반영하는가”가 더 중요합니다.