Skip to main content
배움 에이아이 home page
Search...
⌘K
문의하기
Search...
Navigation
02. 평가 (Evaluation)
평가 (Evaluation)
Setup
IT Essentials
Python
Data Analysis
Machine Learning
Deep Learning
Vision
NLP
RAG
Agent
Fine-Tuning
LLMOps
AI Tools
Trend
Homepage
GitHub
00. 시작하기
LLMOps 개요
LLMOps 개요
01. 관찰성 (Observability)
관찰성 (Observability)
트레이싱 설계
메트릭과 알림
비용 모니터링
02. 평가 (Evaluation)
평가 (Evaluation)
Eval 데이터셋 설계
LLM Judge와 Human Review
03. 프롬프트 운영 (PromptOps)
프롬프트 운영 (PromptOps)
프롬프트 버전 관리
A/B 테스트와 롤아웃
04. 운영과 거버넌스
운영과 거버넌스
인시던트 대응
거버넌스와 보안
On this page
평가 (Evaluation)
기본 원칙
02. 평가 (Evaluation)
평가 (Evaluation)
Copy page
eval dataset 설계부터 LLM judge와 사람 평가 결합 방식까지 다룹니다.
Copy page
평가 (Evaluation)
LLM 평가는 한 번의 점수로 끝나지 않습니다. 데이터셋, 자동 평가, 사람 평가를 함께 운영해야 합니다.
Eval 데이터셋 설계
서비스 목표와 연결된 평가셋을 만드는 기준
LLM Judge + Human Review
자동화와 휴먼 검수를 결합한 운영 절차
기본 원칙
평가셋은 실제 사용자 태스크 분포를 반영한다
모델 비교는 동일한 프롬프트/동일한 조건에서 수행한다
자동화 점수는 의사결정 보조이며 최종 판단은 사람 리뷰를 포함한다
비용 모니터링
Eval 데이터셋 설계