Skip to main content
학습이 끝나면 “어떤 체크포인트를 배포할지”를 결정해야 합니다. 결정 기준과 롤백 절차가 없으면 운영 리스크가 커집니다.

체크포인트 선정 기준

기준설명
오프라인 지표holdout 성능이 베이스라인 대비 개선
안전성정책 위반률이 허용 범위 이내
일관성동일 입력에 대한 출력 변동이 작음
비용추론 지연/비용이 운영 기준 충족

배포 전략

1

Release Candidate 지정

후보 체크포인트를 RC로 태깅하고 변경 로그를 남깁니다.
2

Canary 배포

일부 트래픽에서 오류율/만족도/비용을 관찰합니다.
3

점진 확장

문제가 없으면 트래픽을 단계적으로 확대합니다.
4

정식 릴리즈

운영 기준 충족 시 기본 모델로 승격합니다.

롤백 조건 예시

  • 정책 위반률이 기준치 초과
  • 핵심 태스크 실패율 급증
  • p95 지연시간이 SLA 초과
  • 사용자 불만/클레임 급증

운영 팁

  • 모델 카드에 데이터 버전/평가 결과를 함께 기록합니다
  • 체크포인트명은 의미 있는 규칙으로 통일합니다
  • 이전 안정 버전을 항상 즉시 복구 가능 상태로 유지합니다

실무 적용 체크리스트

  • 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
  • 측정 지표와 실패 임계값을 숫자로 정의했습니다.
  • 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
  • 팀 내 공유 문서(런북/가이드)에 반영했습니다.

자주 나는 실수

  1. 기준 지표 없이 개선을 선언합니다.
  2. 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
  3. 롤백 조건 없이 배포해 장애 복구가 늦어집니다.

다음 문서

다음: LLMOps

학습 흐름을 이어서 진행합니다.