LLMOps 통합 가이드
RAG 시스템 전 과정에서 관찰성(Observability), 평가(Evaluation), 프롬프트 관리(Prompt Management)를 체계적으로 운영하기 위한 가이드입니다. Langfuse와 LangSmith 두 가지 도구를 비교하며 세팅 체크리스트를 제공합니다.공통 세팅 체크리스트
모든 LLMOps 도구에 공통으로 적용되는 기본 세팅입니다.A. 프로젝트/키 설정
A. 프로젝트/키 설정
- LLMOps 도구 선택: Langfuse 또는 LangSmith
- 프로젝트 생성 (환경 분리 권장:
dev/staging/prod) - API 키 발급 및 안전 저장 (Secrets Manager 또는 .env)
B. Trace 스키마 (최소)
B. Trace 스키마 (최소)
- Trace 메타데이터:
env,tenant/team,user/session,usecase,language - Retrieval 스팬 기록:
top_k,filters,returned_doc_ids,rerank_on/off - Generation 스팬 기록:
model,temperature,prompt_version,input_tokens/output_tokens,latency - PII/민감정보 마스킹 규칙 (로그/트레이스 저장 전)
C. 프롬프트 관리
C. 프롬프트 관리
- “프롬프트를 코드에 하드코딩하지 않는다” 원칙 수립
- 버전/라벨(또는 커밋)로 배포: staging에서 검증 후 prod로 승격
- 프롬프트 변경 이력 추적 가능하도록 관리
D. 평가 (Eval)
D. 평가 (Eval)
- Dataset v1 생성 (최소 50~100문항)
- 자동 평가 (LLM Judge 또는 휴먼 라벨링)로 점수 누적
- 변경 전/후 회귀(Regression) 평가 루틴 고정
LangSmith 세팅 가이드
LangChain 생태계와 긴밀하게 통합되며, Dataset 기반 반복 평가와 Playground/Hub 기반 프롬프트 관리가 강점입니다.- Tracing
- Evaluation
- Prompt 관리
트레이싱 설정
LangChain/LangGraph 기반이면 환경변수만 설정하면 자동 추적됩니다.- 각 노드(검색, 생성)의 입출력
- 검색된 문서 내용과 유사도 점수
- LLM 호출의 프롬프트와 응답
- 실행 시간과 토큰 사용량
Langfuse 세팅 가이드
오픈소스 LLM 관찰성 플랫폼으로, 셀프호스팅 가능하며 환경별 라벨 배포와 LLM-as-a-Judge 평가가 강점입니다.- Tracing
- Evaluation
- Prompt 관리
도구 비교 요약
| 기능 | LangSmith | Langfuse |
|---|---|---|
| 트레이싱 | 환경변수 설정만으로 자동 | 콜백/데코레이터 방식 (v3 싱글톤 패턴) |
| LangChain 통합 | 네이티브 (가장 간편) | 콜백 핸들러로 통합 |
| 평가 | Dataset + Playground 실험 | Dataset + LLM-as-Judge + Annotation Queue |
| 프롬프트 관리 | Hub/Playground/커밋 | UI + 버전/라벨/환경별 배포 |
| 셀프호스팅 | 불가 (SaaS) | 가능 (Docker/K8s) |
| 가격 | 무료 티어 + 유료 | 오픈소스 무료 + 클라우드 유료 |
| 추천 시나리오 | LangChain 생태계 올인 | 셀프호스팅/운영 유연성 필요 |
두 도구 모두 우수하며, 팀의 기술 스택과 운영 요구사항에 맞게 선택하세요. LangChain/LangGraph를 주로 사용한다면 LangSmith, 셀프호스팅이 필요하거나 프레임워크에 구애받지 않으려면 Langfuse가 적합합니다.
참고 자료
| 자료 | 링크 |
|---|---|
| Langfuse Observability | langfuse.com/docs/tracing |
| Langfuse Evaluation | langfuse.com/docs/scores |
| Langfuse Prompt Management | langfuse.com/docs/prompts |
| LangSmith Tracing | docs.smith.langchain.com |
| LangSmith Evaluation | docs.smith.langchain.com/evaluation |
| LangSmith Prompt Engineering | docs.smith.langchain.com/prompt-engineering |

