벤치마크와 사람 평가 - 배움 에이아이

자동 지표만으로는 사용자 체감 품질을 충분히 설명하기 어렵습니다. 사람 평가를 반드시 결합해야 합니다.

평가 프레임

평가 축	예시 지표
정확성	정답률, 사실성 점수
형식 준수	JSON 파싱 성공률, 필드 누락률
안전성	금지 응답 비율, 정책 위반률
실용성	사람이 매긴 유용성 점수

사람 평가 루브릭 예시

점수	기준
5	정확하고 바로 사용 가능
4	사소한 수정 후 사용 가능
3	핵심은 맞지만 보완 필요
2	주요 오류가 있음
1	사용 불가

평가 운영 절차

1

평가셋 고정

모델 비교 시 동일한 평가셋을 사용합니다.

2

블라인드 평가

라벨러가 모델 이름을 모르게 하여 편향을 줄입니다.

3

오류 유형화

실패 케이스를 사실오류/형식오류/안전오류로 분류합니다.

4

개선 루프

오류 유형별로 데이터 또는 프롬프트 개선 액션을 연결합니다.

벤치마크 점수 상승과 사용자 만족도 상승은 다를 수 있습니다. 릴리즈 전에는 반드시 실제 업무 시나리오 기반 테스트를 포함합니다.

실무 적용 체크리스트

이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
측정 지표와 실패 임계값을 숫자로 정의했습니다.
변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
팀 내 공유 문서(런북/가이드)에 반영했습니다.

자주 나는 실수

기준 지표 없이 개선을 선언합니다.
한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
롤백 조건 없이 배포해 장애 복구가 늦어집니다.

다음 문서

다음: 체크포인트 머지와 서빙

학습 흐름을 이어서 진행합니다.

평가와 배포 체크포인트 머지와 서빙