Eval 데이터셋 설계
서비스 목표와 연결된 평가셋을 만드는 기준
LLM Judge + Human Review
자동화와 휴먼 검수를 결합한 운영 절차
기본 원칙
- 평가셋은 실제 사용자 태스크 분포를 반영한다
- 모델 비교는 동일한 프롬프트/동일한 조건에서 수행한다
- 자동화 점수는 의사결정 보조이며 최종 판단은 사람 리뷰를 포함한다
학습 완료 기준
- 이 섹션의 핵심 개념을 팀 문서로 설명할 수 있습니다.
- 최소 1개 운영 시나리오를 직접 실행하고 결과를 기록할 수 있습니다.
- 실패 기준과 롤백 기준을 문서로 정의할 수 있습니다.
- 다음 섹션으로 넘어가기 전 필수 체크리스트를 완료할 수 있습니다.
실무 적용 체크리스트
- 현재 운영 중인 모델/프롬프트 버전을 식별할 수 있습니다.
- 품질·비용·지연 중 우선 KPI를 1순위로 정했습니다.
- 실험과 운영 환경(dev/stage/prod) 경계를 분리했습니다.
- 주간 리뷰 주기와 담당자를 지정했습니다.
다음 문서
다음: Eval 데이터셋 설계
학습 흐름을 이어서 진행합니다.
평가 주기 권장안
- 일간: canary 샘플 빠른 점검
- 주간: shadow 셋 회귀 테스트
- 월간: golden 셋 재검토 및 갱신

