평가와 배포 - 배움 에이아이

파인튜닝 성공 여부는 학습 손실이 아니라 배포 후 품질로 결정됩니다. 오프라인 평가와 온라인 검증을 분리해 운영합니다.

벤치마크와 사람 평가

자동 지표와 휴먼 리뷰를 결합한 평가 프레임

체크포인트 머지와 서빙

어댑터 병합, 릴리즈 후보 선정, 롤백 전략

기본 운영 원칙

동일 프롬프트 세트로 모델 간 비교
KPI와 안전성 지표를 함께 관리
Canary -> 점진 확장 -> 전체 배포 순서 고정
롤백 조건을 배포 전에 문서화

학습 완료 기준

이 섹션의 핵심 개념을 팀 문서로 설명할 수 있습니다.
최소 1개 운영 시나리오를 직접 실행하고 결과를 기록할 수 있습니다.
실패 기준과 롤백 기준을 문서로 정의할 수 있습니다.
다음 섹션으로 넘어가기 전 필수 체크리스트를 완료할 수 있습니다.

실무 적용 체크리스트

현재 운영 중인 모델/프롬프트 버전을 식별할 수 있습니다.
품질·비용·지연 중 우선 KPI를 1순위로 정했습니다.
실험과 운영 환경(dev/stage/prod) 경계를 분리했습니다.
주간 리뷰 주기와 담당자를 지정했습니다.

다음 문서

다음: 벤치마크와 사람 평가

학습 흐름을 이어서 진행합니다.

배포 게이트 예시

오프라인 핵심 지표 개선
안전성 지표 기준 통과
Canary 구간 장애/비용 이상 없음

세 가지를 모두 만족할 때만 전체 트래픽 승격을 권장합니다. 배포 후 24시간 관찰 창을 두고 이상 징후를 재확인합니다.

RLHF 개요 벤치마크와 사람 평가