자동 지표만으로는 사용자 체감 품질을 충분히 설명하기 어렵습니다.
사람 평가를 반드시 결합해야 합니다.
평가 프레임
| 평가 축 | 예시 지표 |
|---|
| 정확성 | 정답률, 사실성 점수 |
| 형식 준수 | JSON 파싱 성공률, 필드 누락률 |
| 안전성 | 금지 응답 비율, 정책 위반률 |
| 실용성 | 사람이 매긴 유용성 점수 |
사람 평가 루브릭 예시
| 점수 | 기준 |
|---|
| 5 | 정확하고 바로 사용 가능 |
| 4 | 사소한 수정 후 사용 가능 |
| 3 | 핵심은 맞지만 보완 필요 |
| 2 | 주요 오류가 있음 |
| 1 | 사용 불가 |
평가 운영 절차
평가셋 고정
모델 비교 시 동일한 평가셋을 사용합니다.
블라인드 평가
라벨러가 모델 이름을 모르게 하여 편향을 줄입니다.
오류 유형화
실패 케이스를 사실오류/형식오류/안전오류로 분류합니다.
개선 루프
오류 유형별로 데이터 또는 프롬프트 개선 액션을 연결합니다.
벤치마크 점수 상승과 사용자 만족도 상승은 다를 수 있습니다.
릴리즈 전에는 반드시 실제 업무 시나리오 기반 테스트를 포함합니다.
실무 적용 체크리스트
자주 나는 실수
- 기준 지표 없이 개선을 선언합니다.
- 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
- 롤백 조건 없이 배포해 장애 복구가 늦어집니다.
다음 문서
다음: 체크포인트 머지와 서빙
학습 흐름을 이어서 진행합니다.