Level 4: Production (서비스화 + 운영)
목표: 서비스 분리 + 인증/권한 + 관측성 + 피드백 루프 + 안정 운영Langfuse는 Trace/평가/프롬프트 버전/라벨 배포(환경별 라벨) 같은 운영 기능을 강조하고, LangSmith도 트레이싱/평가/프롬프트 관리 워크플로우를 제공합니다.
아키텍처
구현 체크리스트
1. 서비스 분리
1. 서비스 분리
- 마이크로서비스 또는 모듈 분리: Ingest / Index / Retrieve / Generate
- API Gateway 또는 로드밸런서 구성
- 컨테이너화 (Docker) + 오케스트레이션 (K8s 또는 Docker Compose)
- 환경 분리: dev / staging / prod
2. 인증/권한
2. 인증/권한
- RBAC (Role-Based Access Control) 구현
- 멀티 테넌시 (필요 시)
- API 키 또는 OAuth 인증
- 문서 수준 ACL (접근 권한 필터링)
3. 관측성 + 모니터링
3. 관측성 + 모니터링
- 모든 요청에 Trace 자동 기록
- 대시보드 구성: 지연(p50/p95/p99), 비용, 에러율
- 알림 설정: 에러율 급증, 지연 임계값 초과, 빈 검색률 급증
- 근거(검색 결과) 저장 (사후 감사 가능)
4. 온라인 평가
4. 온라인 평가
- 사용자 만족도(CSAT) 수집 (좋아요/싫어요)
- 해결률 / 재질문율 추적
- prod trace 샘플링 기반 자동 평가 스케줄
- 드리프트 감지 (품질 점수 추이 모니터링)
5. 피드백 루프
5. 피드백 루프
- 사용자 피드백 → 라벨링 → 데이터셋 갱신
- 문서 업데이트 → 증분 재인덱싱 트리거
- 주간 운영 루프 루틴 수립
- 인시던트 대응 프로세스 (원인분류 → 수정 → 재평가)
6. 프롬프트 배포
6. 프롬프트 배포
- 프롬프트 배포 흐름 확립: staging → 평가 통과 → prod 승격
- 롤백 절차 수립 (문제 발생 시 이전 버전 복원)
- 프롬프트 변경 이력 관리 (라벨/커밋 기반)
Gate 4 통과 기준
운영
| 기준 | 목표 |
|---|---|
| 5xx 오류율 | < 1% |
| 보안/권한 사고 | 0건 |
| 원인 재현/분류 | 운영자가 Trace만 보고 원인(데이터/검색/프롬프트/모델) 분류 가능 |
LLMOps
| 기준 | 목표 |
|---|---|
| 대시보드 | latency/cost/error/빈검색률/품질점수 + 알림 세팅 완료 |
| 지속 평가 | prod trace 샘플링 기반 드리프트 감지 루틴 고정 |
| 프롬프트 배포 | staging → 평가 통과 → prod 승격 루틴 확립 |
운영 루프 (주간 루틴)
매주(또는 릴리즈마다) 이 루틴만 지키면, RAG 품질이 **“감”이 아니라 “관리”**가 됩니다.실패 라벨링
실패를 4가지로 분류합니다:
- (A) 검색 실패: 관련 문서를 찾지 못함
- (B) 컨텍스트 조립 실패: 문서는 찾았으나 잘못 조합
- (C) 답변 실패: 컨텍스트는 좋았으나 답변 품질 불량
- (D) 정책/권한 실패: 접근 불가 문서 노출 등
라벨별 개선 1개
라벨별로 개선책 1개씩만 적용합니다 (과잉 개선 금지).
- A → 청킹 전략 변경 또는 쿼리 변환 추가
- B → 컨텍스트 조립 로직 수정
- C → 프롬프트 개선 또는 모델 교체
- D → ACL/필터 로직 수정

