Skip to main content
LLMOps의 핵심 질문은 세 가지입니다.
  • 품질이 좋아졌는가
  • 비용이 통제되는가
  • 문제가 생겼을 때 빠르게 복구되는가

운영 대상

대상예시
프롬프트system/user template, tool instructions
모델provider/model 버전, 라우팅 정책
지식원RAG 인덱스, 검색 파이프라인
정책안전 필터, PII 마스킹, 접근 권한

핵심 KPI

지표의미운영 질문
Task success rate사용자 작업 완료율모델 응답이 실제 업무를 끝내는가
Groundedness근거 기반 응답 비율RAG 문서와 일치하는가
p95 latency체감 응답 속도사용자가 기다릴 수 있는 수준인가
Cost / task작업당 비용품질 대비 비용이 적정한가
Incident MTTR장애 복구 시간문제가 생겼을 때 얼마나 빨리 고치는가

조직 역할 분리

  • 제품팀: 태스크 정의, 사용자 피드백 해석
  • 플랫폼팀: 호출 인프라, 모니터링, 비용 최적화
  • 모델팀: 평가셋 관리, 프롬프트/모델 개선
  • 보안팀: 데이터 정책, 접근 통제, 감사 로그

운영 성숙도 단계

  1. 수동 운영: 로그 확인, 수동 재현 중심
  2. 계측 운영: 트레이싱/지표 대시보드 구축
  3. 실험 운영: Prompt/Model A/B 테스트 정착
  4. 정책 운영: 보안/컴플라이언스 자동 검사
  5. 자율 운영: 이상탐지와 자동 롤백 일부 자동화
LLMOps는 도구 이름보다 운영 원칙이 먼저입니다. 도구는 바뀌어도 지표와 절차는 유지되어야 합니다.

실무 적용 체크리스트

  • 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
  • 측정 지표와 실패 임계값을 숫자로 정의했습니다.
  • 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
  • 팀 내 공유 문서(런북/가이드)에 반영했습니다.

자주 나는 실수

  1. 기준 지표 없이 개선을 선언합니다.
  2. 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
  3. 롤백 조건 없이 배포해 장애 복구가 늦어집니다.

다음 문서

다음: 관찰성 (Observability)

학습 흐름을 이어서 진행합니다.