벤치마크와 사람 평가
자동 지표만으로는 사용자 체감 품질을 충분히 설명하기 어렵습니다. 사람 평가를 반드시 결합해야 합니다.평가 프레임
| 평가 축 | 예시 지표 |
|---|---|
| 정확성 | 정답률, 사실성 점수 |
| 형식 준수 | JSON 파싱 성공률, 필드 누락률 |
| 안전성 | 금지 응답 비율, 정책 위반률 |
| 실용성 | 사람이 매긴 유용성 점수 |
사람 평가 루브릭 예시
| 점수 | 기준 |
|---|---|
| 5 | 정확하고 바로 사용 가능 |
| 4 | 사소한 수정 후 사용 가능 |
| 3 | 핵심은 맞지만 보완 필요 |
| 2 | 주요 오류가 있음 |
| 1 | 사용 불가 |

