- 품질이 좋아졌는가
- 비용이 통제되는가
- 문제가 생겼을 때 빠르게 복구되는가
운영 대상
| 대상 | 예시 |
|---|---|
| 프롬프트 | system/user template, tool instructions |
| 모델 | provider/model 버전, 라우팅 정책 |
| 지식원 | RAG 인덱스, 검색 파이프라인 |
| 정책 | 안전 필터, PII 마스킹, 접근 권한 |
핵심 KPI
| 지표 | 의미 | 운영 질문 |
|---|---|---|
| Task success rate | 사용자 작업 완료율 | 모델 응답이 실제 업무를 끝내는가 |
| Groundedness | 근거 기반 응답 비율 | RAG 문서와 일치하는가 |
| p95 latency | 체감 응답 속도 | 사용자가 기다릴 수 있는 수준인가 |
| Cost / task | 작업당 비용 | 품질 대비 비용이 적정한가 |
| Incident MTTR | 장애 복구 시간 | 문제가 생겼을 때 얼마나 빨리 고치는가 |
조직 역할 분리
- 제품팀: 태스크 정의, 사용자 피드백 해석
- 플랫폼팀: 호출 인프라, 모니터링, 비용 최적화
- 모델팀: 평가셋 관리, 프롬프트/모델 개선
- 보안팀: 데이터 정책, 접근 통제, 감사 로그
운영 성숙도 단계
- 수동 운영: 로그 확인, 수동 재현 중심
- 계측 운영: 트레이싱/지표 대시보드 구축
- 실험 운영: Prompt/Model A/B 테스트 정착
- 정책 운영: 보안/컴플라이언스 자동 검사
- 자율 운영: 이상탐지와 자동 롤백 일부 자동화
LLMOps는 도구 이름보다 운영 원칙이 먼저입니다.
도구는 바뀌어도 지표와 절차는 유지되어야 합니다.
실무 적용 체크리스트
- 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
- 측정 지표와 실패 임계값을 숫자로 정의했습니다.
- 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
- 팀 내 공유 문서(런북/가이드)에 반영했습니다.
자주 나는 실수
- 기준 지표 없이 개선을 선언합니다.
- 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
- 롤백 조건 없이 배포해 장애 복구가 늦어집니다.
다음 문서
다음: 관찰성 (Observability)
학습 흐름을 이어서 진행합니다.

