평가 (Evaluation)
기본 원칙

평가 (Evaluation)

LLM 평가는 한 번의 점수로 끝나지 않습니다. 데이터셋, 자동 평가, 사람 평가를 함께 운영해야 합니다.

Eval 데이터셋 설계

서비스 목표와 연결된 평가셋을 만드는 기준

LLM Judge + Human Review

자동화와 휴먼 검수를 결합한 운영 절차

기본 원칙

평가셋은 실제 사용자 태스크 분포를 반영한다
모델 비교는 동일한 프롬프트/동일한 조건에서 수행한다
자동화 점수는 의사결정 보조이며 최종 판단은 사람 리뷰를 포함한다

비용 모니터링 Eval 데이터셋 설계