Skip to main content

벤치마크와 사람 평가

자동 지표만으로는 사용자 체감 품질을 충분히 설명하기 어렵습니다. 사람 평가를 반드시 결합해야 합니다.

평가 프레임

평가 축예시 지표
정확성정답률, 사실성 점수
형식 준수JSON 파싱 성공률, 필드 누락률
안전성금지 응답 비율, 정책 위반률
실용성사람이 매긴 유용성 점수

사람 평가 루브릭 예시

점수기준
5정확하고 바로 사용 가능
4사소한 수정 후 사용 가능
3핵심은 맞지만 보완 필요
2주요 오류가 있음
1사용 불가

평가 운영 절차

1

평가셋 고정

모델 비교 시 동일한 평가셋을 사용합니다.
2

블라인드 평가

라벨러가 모델 이름을 모르게 하여 편향을 줄입니다.
3

오류 유형화

실패 케이스를 사실오류/형식오류/안전오류로 분류합니다.
4

개선 루프

오류 유형별로 데이터 또는 프롬프트 개선 액션을 연결합니다.
벤치마크 점수 상승과 사용자 만족도 상승은 다를 수 있습니다. 릴리즈 전에는 반드시 실제 업무 시나리오 기반 테스트를 포함하세요.