Skip to main content

평가 (Evaluation)

LLM 평가는 한 번의 점수로 끝나지 않습니다. 데이터셋, 자동 평가, 사람 평가를 함께 운영해야 합니다.

기본 원칙

  • 평가셋은 실제 사용자 태스크 분포를 반영한다
  • 모델 비교는 동일한 프롬프트/동일한 조건에서 수행한다
  • 자동화 점수는 의사결정 보조이며 최종 판단은 사람 리뷰를 포함한다