Skip to main content
LLM 평가는 한 번의 점수로 끝나지 않습니다. 데이터셋, 자동 평가, 사람 평가를 함께 운영해야 합니다.

Eval 데이터셋 설계

서비스 목표와 연결된 평가셋을 만드는 기준

LLM Judge + Human Review

자동화와 휴먼 검수를 결합한 운영 절차

기본 원칙

  • 평가셋은 실제 사용자 태스크 분포를 반영한다
  • 모델 비교는 동일한 프롬프트/동일한 조건에서 수행한다
  • 자동화 점수는 의사결정 보조이며 최종 판단은 사람 리뷰를 포함한다

학습 완료 기준

  • 이 섹션의 핵심 개념을 팀 문서로 설명할 수 있습니다.
  • 최소 1개 운영 시나리오를 직접 실행하고 결과를 기록할 수 있습니다.
  • 실패 기준과 롤백 기준을 문서로 정의할 수 있습니다.
  • 다음 섹션으로 넘어가기 전 필수 체크리스트를 완료할 수 있습니다.

실무 적용 체크리스트

  • 현재 운영 중인 모델/프롬프트 버전을 식별할 수 있습니다.
  • 품질·비용·지연 중 우선 KPI를 1순위로 정했습니다.
  • 실험과 운영 환경(dev/stage/prod) 경계를 분리했습니다.
  • 주간 리뷰 주기와 담당자를 지정했습니다.

다음 문서

다음: Eval 데이터셋 설계

학습 흐름을 이어서 진행합니다.

평가 주기 권장안

  • 일간: canary 샘플 빠른 점검
  • 주간: shadow 셋 회귀 테스트
  • 월간: golden 셋 재검토 및 갱신
주기를 고정하면 지표 변동의 원인을 더 빠르게 해석할 수 있습니다. 평가 결과는 릴리즈 의사결정 문서와 항상 연결해 기록합니다.