체크포인트 선정 기준
| 기준 | 설명 |
|---|---|
| 오프라인 지표 | holdout 성능이 베이스라인 대비 개선 |
| 안전성 | 정책 위반률이 허용 범위 이내 |
| 일관성 | 동일 입력에 대한 출력 변동이 작음 |
| 비용 | 추론 지연/비용이 운영 기준 충족 |
배포 전략
롤백 조건 예시
- 정책 위반률이 기준치 초과
- 핵심 태스크 실패율 급증
- p95 지연시간이 SLA 초과
- 사용자 불만/클레임 급증
운영 팁
- 모델 카드에 데이터 버전/평가 결과를 함께 기록합니다
- 체크포인트명은 의미 있는 규칙으로 통일합니다
- 이전 안정 버전을 항상 즉시 복구 가능 상태로 유지합니다
실무 적용 체크리스트
- 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
- 측정 지표와 실패 임계값을 숫자로 정의했습니다.
- 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
- 팀 내 공유 문서(런북/가이드)에 반영했습니다.
자주 나는 실수
- 기준 지표 없이 개선을 선언합니다.
- 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
- 롤백 조건 없이 배포해 장애 복구가 늦어집니다.
다음 문서
다음: LLMOps
학습 흐름을 이어서 진행합니다.

