Skip to main content
PDF, DOCX, PPTX 등 비정형 문서는 텍스트 추출 → 구조 변환 → 청킹의 전처리 파이프라인이 필요합니다. 특히 이미지, 표, 수식 등 비텍스트 요소를 포함하는 문서는 전처리 품질이 RAG 성능에 직접적인 영향을 미칩니다.

도구별 상세 페이지

Docling

IBM Research의 멀티포맷 문서 변환 라이브러리. PDF, DOCX, PPTX, HTML, 이미지를 지원하며 OCR, 레이아웃 분석, VLM 파이프라인을 포함합니다.

PyMuPDF4LLM

PyMuPDF 기반 PDF 전용 변환 도구. 빠른 속도와 정확한 텍스트 추출로 단순 레이아웃 PDF에 최적화되어 있습니다.

Docling vs PyMuPDF4LLM

항목DoclingPyMuPDF4LLM
지원 형식PDF, DOCX, PPTX, HTML, 이미지PDF 전용
변환 속도느림 (레이아웃 분석 포함)매우 빠름
레이아웃 분석AI 기반 레이아웃 분석규칙 기반
표 인식복잡한 병합 셀 처리기본 표 변환
이미지 추출구조화된 메타데이터 포함파일 추출 + MD 링크
OCR내장 (다국어 지원)미지원
VLM 파이프라인지원 (SmolDocling, GraniteDocling 등)미지원
청킹HybridChunker 내장외부 도구 필요
의존성무거움 (torch 등)가벼움 (PyMuPDF만)
적합한 경우복잡한 레이아웃, 다양한 형식PDF 빠른 처리, 단순 레이아웃
이미지 추출 시 저작권에 유의합니다. 추출된 이미지를 포함한 청크를 벡터 DB에 저장할 때, 이미지 파일의 저장 경로가 프로덕션 환경에서도 유효한지 확인해야 합니다.

도구 종합 비교

도구입력 형식핵심 기능이미지 추출적합한 경우
LangChain Splitters텍스트, MD, HTML, Code구조 기반 분할-LangChain 파이프라인
Chonkie텍스트토큰 기반 경량 청킹-토큰 관리 + 다양한 전략
DoclingPDF, DOCX, PPTX, HTML문서 변환 + 청킹O (MD 링크)복잡한 레이아웃, 다형식
PyMuPDF4LLMPDFPDF -> MD 변환O (MD 링크)빠른 PDF 전처리
추천 조합: 단순 PDF는 PyMuPDF4LLM → MarkdownHeaderTextSplitter, 복잡한 PDF(표, 다단, 스캔)는 Docling → HybridChunker, 텍스트 문서는 Chonkie RecursiveChunker를 사용합니다.