Level 2: MVP (파이프라인 + 평가체계)
목표: 반복 평가 가능한 시스템(데이터셋/지표/리포트) 만들기LangSmith는 “Dataset을 만들어 반복 평가”를 강조하고, Langfuse도 Dataset/Experiment 기반 평가를 제공합니다.
아키텍처
구현 체크리스트
1. 데이터 인입 파이프라인
1. 데이터 인입 파이프라인
- 문서 추출기 구현 (PDF, Docx, HTML, Markdown)
- 텍스트 정규화 (불필요한 공백, 특수문자 정리)
- 중복 제거 로직 (해시 기반 또는 유사도 기반)
- 메타데이터 스키마 설계 (출처, 날짜, 카테고리, ACL)
2. Chunking 전략 선택
2. Chunking 전략 선택
- 도메인에 맞는 Chunking 전략 비교 테스트
- Chunk 크기/overlap 표준 확정
- Chunk에 메타데이터 부착 (출처, 섹션, 페이지 등)
3. Embedding + 인덱싱
3. Embedding + 인덱싱
- Embedding 모델 선택 (단일언어 vs 멀티링구얼, API vs OSS)
- Embedding 모델 버전 고정 (재현성 보장)
- 증분 인덱싱 구현 (문서 추가/삭제/변경 반영)
- Vector DB 인덱스 최적화 (HNSW 파라미터 등)
4. 평가 체계 구축
4. 평가 체계 구축
- 평가셋 구축: 최소 50~100개 Q/A/근거(출처) 쌍
- 오프라인 평가 파이프라인: Recall@k, MRR, NDCG
- 평가 결과 기록 및 버전별 비교 체계
5. LLMOps MVP 세팅
5. LLMOps MVP 세팅
- Trace에 Retrieval 결과 기록 (doc_id, top-k, 필터, 임베딩 버전)
- Dataset v1 생성 및 버전 관리
- 평가/실험 리포트 저장 (회귀 테스트 가능)
- Prompt Playground로 프롬프트 개선 및 버전 비교
코드 예제
평가셋 구축 및 오프라인 평가
증분 인덱싱 패턴
Gate 2 통과 기준
Retrieval
| 기준 | 목표 |
|---|---|
| Recall@10 | ≥ 0.80 |
| 권한 필터 위반 (접근 불가 문서 노출) | 0건 |
LLMOps
| 기준 | 목표 |
|---|---|
| Dataset v1 | 50~200문항 버전 고정 + 평가 리포트 저장 |
| Trace 디버깅 | doc_id/top-k/필터/임베딩 버전/청킹 버전이 기록되어 디버깅 가능 |

