RAG 평가 (Evaluation)
RAG 시스템의 품질을 측정하고 개선하기 위해 체계적인 평가가 필요합니다. RAGAS 프레임워크는 검색과 생성 품질을 별도로 평가하여, 어떤 단계에서 문제가 발생하는지 진단할 수 있게 합니다.RAG 평가의 두 축
RAGAS 프레임워크
RAGAS(Retrieval-Augmented Generation Assessment)는 RAG 시스템을 평가하는 표준 프레임워크입니다.설치
핵심 메트릭
- Faithfulness (충실성)
- Answer Relevance (답변 관련성)
- Context Relevance (컨텍스트 관련성)
- Context Recall
생성된 답변이 검색된 컨텍스트에 근거하는지를 평가합니다. 환각(hallucination)을 탐지하는 핵심 지표입니다.
- 1.0: 답변의 모든 주장이 컨텍스트에 근거
- 0.0: 답변의 모든 주장이 컨텍스트에 근거 없음
RAGAS 코드 예제
메트릭별 진단과 개선
| 메트릭 | 낮은 점수의 원인 | 개선 방법 |
|---|---|---|
| Faithfulness | LLM이 컨텍스트 무시, 환각 | temperature 낮추기, 프롬프트 강화 |
| Answer Relevance | 질문 이해 부족, 답변 포맷 | 프롬프트 개선, Few-shot 추가 |
| Context Relevance | 검색 품질 낮음 | 쿼리 변환, 하이브리드 검색, 재순위화 |
| Context Recall | 관련 문서 누락 | top-k 증가, 청킹 전략 변경, 임베딩 모델 교체 |
LangSmith 연동
LangSmith를 사용하면 RAG 파이프라인의 각 단계를 추적하고 디버깅할 수 있습니다.LangSmith에서 확인할 수 있는 것
- 각 노드(검색, 생성)의 입출력
- 검색된 문서 내용과 유사도 점수
- LLM 호출의 프롬프트와 응답
- 실행 시간과 토큰 사용량
- 피드백 수집 및 데이터셋 구축
평가 데이터셋 구축
자동 생성
LLM을 활용하여 평가용 질문-답변 쌍을 자동 생성합니다.평가 체크리스트
평가 데이터가 충분한가?
평가 데이터가 충분한가?
최소 50~100개의 질문-답변 쌍을 확보하세요. 도메인의 다양한 유형(사실 질문, 비교, 추론 등)을 포함해야 합니다.
정기적으로 평가하고 있는가?
정기적으로 평가하고 있는가?
문서 추가/변경, 모델 업데이트 시마다 평가를 재실행하세요. CI/CD에 평가를 통합하는 것을 권장합니다.
단계별로 진단하고 있는가?
단계별로 진단하고 있는가?
전체 점수만 보지 말고, 검색/생성 단계를 분리하여 병목을 정확히 파악하세요.
참고 자료
| 자료 | 링크 |
|---|---|
| RAGAS 공식 문서 | docs.ragas.io |
| LangSmith 문서 | docs.smith.langchain.com |
| RAGAS 논문 (Es et al., 2023) | arXiv 2309.15217 |

