LLM Judge와 Human Review
LLM judge는 빠르고, human review는 신뢰도가 높습니다. 둘을 분리하지 말고 역할을 나눠 결합하세요.역할 분담
| 방식 | 강점 | 한계 | 권장 용도 |
|---|---|---|---|
| LLM judge | 대량 평가 자동화 | 편향/일관성 이슈 가능 | 1차 스크리닝 |
| Human review | 맥락 판단 정확 | 비용/시간 소모 | 최종 검증, 경계 사례 |
결합 패턴
검수 우선순위
- 고객 영향이 큰 업무 흐름
- 정책 위반 가능성이 높은 요청
- 수치/법률/의료 등 고위험 도메인
- 신규 모델/프롬프트 릴리즈 후보

