Skip to main content

평가와 배포

파인튜닝 성공 여부는 학습 손실이 아니라 배포 후 품질로 결정됩니다. 오프라인 평가와 온라인 검증을 분리해 운영하세요.

기본 운영 원칙

  • 동일 프롬프트 세트로 모델 간 비교
  • KPI와 안전성 지표를 함께 관리
  • Canary -> 점진 확장 -> 전체 배포 순서 고정
  • 롤백 조건을 배포 전에 문서화