LLMOps 개요
LLMOps의 핵심 질문은 세 가지입니다.
- 품질이 좋아졌는가
- 비용이 통제되는가
- 문제가 생겼을 때 빠르게 복구되는가
운영 대상
| 대상 | 예시 |
|---|
| 프롬프트 | system/user template, tool instructions |
| 모델 | provider/model 버전, 라우팅 정책 |
| 지식원 | RAG 인덱스, 검색 파이프라인 |
| 정책 | 안전 필터, PII 마스킹, 접근 권한 |
핵심 KPI
| 지표 | 의미 | 운영 질문 |
|---|
| Task success rate | 사용자 작업 완료율 | 모델 응답이 실제 업무를 끝내는가 |
| Groundedness | 근거 기반 응답 비율 | RAG 문서와 일치하는가 |
| p95 latency | 체감 응답 속도 | 사용자가 기다릴 수 있는 수준인가 |
| Cost / task | 작업당 비용 | 품질 대비 비용이 적정한가 |
| Incident MTTR | 장애 복구 시간 | 문제가 생겼을 때 얼마나 빨리 고치는가 |
조직 역할 분리
- 제품팀: 태스크 정의, 사용자 피드백 해석
- 플랫폼팀: 호출 인프라, 모니터링, 비용 최적화
- 모델팀: 평가셋 관리, 프롬프트/모델 개선
- 보안팀: 데이터 정책, 접근 통제, 감사 로그
운영 성숙도 단계
- 수동 운영: 로그 확인, 수동 재현 중심
- 계측 운영: 트레이싱/지표 대시보드 구축
- 실험 운영: Prompt/Model A/B 테스트 정착
- 정책 운영: 보안/컴플라이언스 자동 검사
- 자율 운영: 이상탐지와 자동 롤백 일부 자동화
LLMOps는 도구 이름보다 운영 원칙이 먼저입니다.
도구는 바뀌어도 지표와 절차는 유지되어야 합니다.