Skip to main content
청킹은 긴 문서를 검색에 적합한 크기의 조각(청크)으로 분할하는 과정입니다. 청킹 전략에 따라 검색 품질과 답변 정확도가 크게 달라지므로, RAG 파이프라인에서 가장 중요한 설계 결정 중 하나입니다.

왜 청킹이 중요한가?

전략 비교 종합

전략속도품질비용적합한 경우
Fixed-Size매우 빠름낮음무료프로토타이핑
Recursive빠름좋음무료대부분의 경우 (기본 선택)
Semantic느림매우 좋음임베딩 비용높은 검색 정확도 필요
Markdown/HTML/Code빠름좋음무료구조화된 문서

청크 크기와 오버랩 가이드

문서 유형권장 크기오버랩이유
기술 문서800~1500자200자개념 단위 보존
FAQ / Q&A300~500자50자질문-답변 쌍 유지
법률 문서1000~2000자300자조항 간 연결 필요
코드1500~3000자200자함수/클래스 단위
뉴스 기사500~1000자100자문단 단위
시작할 때는 RecursiveCharacterTextSplitter를 기본으로 사용하고, chunk_size=1000, chunk_overlap=200으로 시작합니다. 검색 품질이 부족하면 Semantic Chunking이나 Document-Specific Chunking으로 전환합니다.

세부 전략 가이드

문자 기반 청킹

Fixed-Size와 Recursive Character Splitting의 원리, 파라미터 튜닝, 코드 예제

시맨틱 청킹

임베딩 유사도 기반 분할, breakpoint 설정, 성능 트레이드오프

문서 구조 청킹

Markdown, HTML, Code 전용 청킹과 Chonkie, Docling 활용