Skip to main content
자동 지표만으로는 사용자 체감 품질을 충분히 설명하기 어렵습니다. 사람 평가를 반드시 결합해야 합니다.

평가 프레임

평가 축예시 지표
정확성정답률, 사실성 점수
형식 준수JSON 파싱 성공률, 필드 누락률
안전성금지 응답 비율, 정책 위반률
실용성사람이 매긴 유용성 점수

사람 평가 루브릭 예시

점수기준
5정확하고 바로 사용 가능
4사소한 수정 후 사용 가능
3핵심은 맞지만 보완 필요
2주요 오류가 있음
1사용 불가

평가 운영 절차

1

평가셋 고정

모델 비교 시 동일한 평가셋을 사용합니다.
2

블라인드 평가

라벨러가 모델 이름을 모르게 하여 편향을 줄입니다.
3

오류 유형화

실패 케이스를 사실오류/형식오류/안전오류로 분류합니다.
4

개선 루프

오류 유형별로 데이터 또는 프롬프트 개선 액션을 연결합니다.
벤치마크 점수 상승과 사용자 만족도 상승은 다를 수 있습니다. 릴리즈 전에는 반드시 실제 업무 시나리오 기반 테스트를 포함합니다.

실무 적용 체크리스트

  • 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
  • 측정 지표와 실패 임계값을 숫자로 정의했습니다.
  • 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
  • 팀 내 공유 문서(런북/가이드)에 반영했습니다.

자주 나는 실수

  1. 기준 지표 없이 개선을 선언합니다.
  2. 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
  3. 롤백 조건 없이 배포해 장애 복구가 늦어집니다.

다음 문서

다음: 체크포인트 머지와 서빙

학습 흐름을 이어서 진행합니다.