벤치마크와 사람 평가
자동 지표와 휴먼 리뷰를 결합한 평가 프레임
체크포인트 머지와 서빙
어댑터 병합, 릴리즈 후보 선정, 롤백 전략
기본 운영 원칙
- 동일 프롬프트 세트로 모델 간 비교
- KPI와 안전성 지표를 함께 관리
- Canary -> 점진 확장 -> 전체 배포 순서 고정
- 롤백 조건을 배포 전에 문서화
학습 완료 기준
- 이 섹션의 핵심 개념을 팀 문서로 설명할 수 있습니다.
- 최소 1개 운영 시나리오를 직접 실행하고 결과를 기록할 수 있습니다.
- 실패 기준과 롤백 기준을 문서로 정의할 수 있습니다.
- 다음 섹션으로 넘어가기 전 필수 체크리스트를 완료할 수 있습니다.
실무 적용 체크리스트
- 현재 운영 중인 모델/프롬프트 버전을 식별할 수 있습니다.
- 품질·비용·지연 중 우선 KPI를 1순위로 정했습니다.
- 실험과 운영 환경(dev/stage/prod) 경계를 분리했습니다.
- 주간 리뷰 주기와 담당자를 지정했습니다.
다음 문서
다음: 벤치마크와 사람 평가
학습 흐름을 이어서 진행합니다.
배포 게이트 예시
- 오프라인 핵심 지표 개선
- 안전성 지표 기준 통과
- Canary 구간 장애/비용 이상 없음

