Skip to main content

체크포인트 머지와 서빙

학습이 끝나면 “어떤 체크포인트를 배포할지”를 결정해야 합니다. 결정 기준과 롤백 절차가 없으면 운영 리스크가 커집니다.

체크포인트 선정 기준

기준설명
오프라인 지표holdout 성능이 베이스라인 대비 개선
안전성정책 위반률이 허용 범위 이내
일관성동일 입력에 대한 출력 변동이 작음
비용추론 지연/비용이 운영 기준 충족

배포 전략

1

Release Candidate 지정

후보 체크포인트를 RC로 태깅하고 변경 로그를 남깁니다.
2

Canary 배포

일부 트래픽에서 오류율/만족도/비용을 관찰합니다.
3

점진 확장

문제가 없으면 트래픽을 단계적으로 확대합니다.
4

정식 릴리즈

운영 기준 충족 시 기본 모델로 승격합니다.

롤백 조건 예시

  • 정책 위반률이 기준치 초과
  • 핵심 태스크 실패율 급증
  • p95 지연시간이 SLA 초과
  • 사용자 불만/클레임 급증

운영 팁

  • 모델 카드에 데이터 버전/평가 결과를 함께 기록합니다
  • 체크포인트명은 의미 있는 규칙으로 통일합니다
  • 이전 안정 버전을 항상 즉시 복구 가능 상태로 유지합니다