Skip to main content

Level 4: Production (서비스화 + 운영)

목표: 서비스 분리 + 인증/권한 + 관측성 + 피드백 루프 + 안정 운영
Langfuse는 Trace/평가/프롬프트 버전/라벨 배포(환경별 라벨) 같은 운영 기능을 강조하고, LangSmith도 트레이싱/평가/프롬프트 관리 워크플로우를 제공합니다.

아키텍처

구현 체크리스트

  • 마이크로서비스 또는 모듈 분리: Ingest / Index / Retrieve / Generate
  • API Gateway 또는 로드밸런서 구성
  • 컨테이너화 (Docker) + 오케스트레이션 (K8s 또는 Docker Compose)
  • 환경 분리: dev / staging / prod
  • RBAC (Role-Based Access Control) 구현
  • 멀티 테넌시 (필요 시)
  • API 키 또는 OAuth 인증
  • 문서 수준 ACL (접근 권한 필터링)
  • 모든 요청에 Trace 자동 기록
  • 대시보드 구성: 지연(p50/p95/p99), 비용, 에러율
  • 알림 설정: 에러율 급증, 지연 임계값 초과, 빈 검색률 급증
  • 근거(검색 결과) 저장 (사후 감사 가능)
  • 사용자 만족도(CSAT) 수집 (좋아요/싫어요)
  • 해결률 / 재질문율 추적
  • prod trace 샘플링 기반 자동 평가 스케줄
  • 드리프트 감지 (품질 점수 추이 모니터링)
  • 사용자 피드백 → 라벨링 → 데이터셋 갱신
  • 문서 업데이트 → 증분 재인덱싱 트리거
  • 주간 운영 루프 루틴 수립
  • 인시던트 대응 프로세스 (원인분류 → 수정 → 재평가)
  • 프롬프트 배포 흐름 확립: staging → 평가 통과 → prod 승격
  • 롤백 절차 수립 (문제 발생 시 이전 버전 복원)
  • 프롬프트 변경 이력 관리 (라벨/커밋 기반)

Gate 4 통과 기준

운영

기준목표
5xx 오류율< 1%
보안/권한 사고0건
원인 재현/분류운영자가 Trace만 보고 원인(데이터/검색/프롬프트/모델) 분류 가능

LLMOps

기준목표
대시보드latency/cost/error/빈검색률/품질점수 + 알림 세팅 완료
지속 평가prod trace 샘플링 기반 드리프트 감지 루틴 고정
프롬프트 배포staging → 평가 통과 → prod 승격 루틴 확립

운영 루프 (주간 루틴)

매주(또는 릴리즈마다) 이 루틴만 지키면, RAG 품질이 **“감”이 아니라 “관리”**가 됩니다.
1

실패 Top 20 추출

LLMOps에서 지난 기간 Trace 중 실패 Top 20을 뽑습니다.
  • 재질문이 발생한 세션
  • 낮은 점수를 받은 답변
  • 빈 검색 결과
2

실패 라벨링

실패를 4가지로 분류합니다:
  • (A) 검색 실패: 관련 문서를 찾지 못함
  • (B) 컨텍스트 조립 실패: 문서는 찾았으나 잘못 조합
  • (C) 답변 실패: 컨텍스트는 좋았으나 답변 품질 불량
  • (D) 정책/권한 실패: 접근 불가 문서 노출 등
3

라벨별 개선 1개

라벨별로 개선책 1개씩만 적용합니다 (과잉 개선 금지).
  • A → 청킹 전략 변경 또는 쿼리 변환 추가
  • B → 컨텍스트 조립 로직 수정
  • C → 프롬프트 개선 또는 모델 교체
  • D → ACL/필터 로직 수정
4

회귀 평가

Dataset/Experiment로 회귀 평가를 실행합니다.
  • Gate 기준 만족하면 prod 승격
  • 불만족 시 추가 개선 후 재평가
5

모니터링 복귀

다시 Trace로 모니터링하며, 다음 주기의 실패 Top 20을 추적합니다.
운영 루프는 습관입니다. 처음에는 번거롭지만, 2~3주만 반복하면 RAG 품질 관리가 체계적으로 정착됩니다.