Skip to main content

LLMOps 개요

LLMOps의 핵심 질문은 세 가지입니다.
  • 품질이 좋아졌는가
  • 비용이 통제되는가
  • 문제가 생겼을 때 빠르게 복구되는가

운영 대상

대상예시
프롬프트system/user template, tool instructions
모델provider/model 버전, 라우팅 정책
지식원RAG 인덱스, 검색 파이프라인
정책안전 필터, PII 마스킹, 접근 권한

핵심 KPI

지표의미운영 질문
Task success rate사용자 작업 완료율모델 응답이 실제 업무를 끝내는가
Groundedness근거 기반 응답 비율RAG 문서와 일치하는가
p95 latency체감 응답 속도사용자가 기다릴 수 있는 수준인가
Cost / task작업당 비용품질 대비 비용이 적정한가
Incident MTTR장애 복구 시간문제가 생겼을 때 얼마나 빨리 고치는가

조직 역할 분리

  • 제품팀: 태스크 정의, 사용자 피드백 해석
  • 플랫폼팀: 호출 인프라, 모니터링, 비용 최적화
  • 모델팀: 평가셋 관리, 프롬프트/모델 개선
  • 보안팀: 데이터 정책, 접근 통제, 감사 로그

운영 성숙도 단계

  1. 수동 운영: 로그 확인, 수동 재현 중심
  2. 계측 운영: 트레이싱/지표 대시보드 구축
  3. 실험 운영: Prompt/Model A/B 테스트 정착
  4. 정책 운영: 보안/컴플라이언스 자동 검사
  5. 자율 운영: 이상탐지와 자동 롤백 일부 자동화
LLMOps는 도구 이름보다 운영 원칙이 먼저입니다. 도구는 바뀌어도 지표와 절차는 유지되어야 합니다.