LLMOps 개요 - 배움 에이아이

운영 대상
핵심 KPI
조직 역할 분리
운영 성숙도 단계
실무 적용 체크리스트
자주 나는 실수
다음 문서

LLMOps의 핵심 질문은 세 가지입니다.

품질이 좋아졌는가
비용이 통제되는가
문제가 생겼을 때 빠르게 복구되는가

운영 대상

대상	예시
프롬프트	system/user template, tool instructions
모델	provider/model 버전, 라우팅 정책
지식원	RAG 인덱스, 검색 파이프라인
정책	안전 필터, PII 마스킹, 접근 권한

핵심 KPI

지표	의미	운영 질문
Task success rate	사용자 작업 완료율	모델 응답이 실제 업무를 끝내는가
Groundedness	근거 기반 응답 비율	RAG 문서와 일치하는가
p95 latency	체감 응답 속도	사용자가 기다릴 수 있는 수준인가
Cost / task	작업당 비용	품질 대비 비용이 적정한가
Incident MTTR	장애 복구 시간	문제가 생겼을 때 얼마나 빨리 고치는가

조직 역할 분리

제품팀: 태스크 정의, 사용자 피드백 해석
플랫폼팀: 호출 인프라, 모니터링, 비용 최적화
모델팀: 평가셋 관리, 프롬프트/모델 개선
보안팀: 데이터 정책, 접근 통제, 감사 로그

운영 성숙도 단계

수동 운영: 로그 확인, 수동 재현 중심
계측 운영: 트레이싱/지표 대시보드 구축
실험 운영: Prompt/Model A/B 테스트 정착
정책 운영: 보안/컴플라이언스 자동 검사
자율 운영: 이상탐지와 자동 롤백 일부 자동화

LLMOps는 도구 이름보다 운영 원칙이 먼저입니다. 도구는 바뀌어도 지표와 절차는 유지되어야 합니다.

실무 적용 체크리스트

이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
측정 지표와 실패 임계값을 숫자로 정의했습니다.
변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
팀 내 공유 문서(런북/가이드)에 반영했습니다.

자주 나는 실수

기준 지표 없이 개선을 선언합니다.
한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
롤백 조건 없이 배포해 장애 복구가 늦어집니다.

다음 문서

다음: 관찰성 (Observability)

학습 흐름을 이어서 진행합니다.

LLMOps 개요 관찰성 (Observability)