Skip to main content

LLM Judge와 Human Review

LLM judge는 빠르고, human review는 신뢰도가 높습니다. 둘을 분리하지 말고 역할을 나눠 결합하세요.

역할 분담

방식강점한계권장 용도
LLM judge대량 평가 자동화편향/일관성 이슈 가능1차 스크리닝
Human review맥락 판단 정확비용/시간 소모최종 검증, 경계 사례

결합 패턴

1

1차 자동 채점

LLM judge가 전체 샘플을 채점하고 하위 점수/불확실 샘플을 추립니다.
2

2차 사람 검수

하위 점수군과 고영향 케이스를 사람이 재평가합니다.
3

편차 분석

judge와 사람 점수 차이가 큰 유형을 분류해 프롬프트/데이터를 보정합니다.

검수 우선순위

  • 고객 영향이 큰 업무 흐름
  • 정책 위반 가능성이 높은 요청
  • 수치/법률/의료 등 고위험 도메인
  • 신규 모델/프롬프트 릴리즈 후보
LLM judge 프롬프트는 모델 업데이트에 따라 흔들릴 수 있습니다. judge 자체도 버전 관리하고 회귀 테스트하세요.