전처리 전략 - 배움 에이아이

도구별 상세 페이지

Docling

IBM Research의 멀티포맷 문서 변환 라이브러리. PDF, DOCX, PPTX, HTML, 이미지를 지원하며 OCR, 레이아웃 분석, VLM 파이프라인을 포함합니다.

PyMuPDF4LLM

PyMuPDF 기반 PDF 전용 변환 도구. 빠른 속도와 정확한 텍스트 추출로 단순 레이아웃 PDF에 최적화되어 있습니다.

Docling vs PyMuPDF4LLM

항목	Docling	PyMuPDF4LLM
지원 형식	PDF, DOCX, PPTX, HTML, 이미지	PDF 전용
변환 속도	느림 (레이아웃 분석 포함)	매우 빠름
레이아웃 분석	AI 기반 레이아웃 분석	규칙 기반
표 인식	복잡한 병합 셀 처리	기본 표 변환
이미지 추출	구조화된 메타데이터 포함	파일 추출 + MD 링크
OCR	내장 (다국어 지원)	미지원
VLM 파이프라인	지원 (SmolDocling, GraniteDocling 등)	미지원
청킹	HybridChunker 내장	외부 도구 필요
의존성	무거움 (torch 등)	가벼움 (PyMuPDF만)
적합한 경우	복잡한 레이아웃, 다양한 형식	PDF 빠른 처리, 단순 레이아웃

도구 종합 비교

도구	입력 형식	핵심 기능	이미지 추출	적합한 경우
LangChain Splitters	텍스트, MD, HTML, Code	구조 기반 분할	-	LangChain 파이프라인
Chonkie	텍스트	토큰 기반 경량 청킹	-	토큰 관리 + 다양한 전략
Docling	PDF, DOCX, PPTX, HTML	문서 변환 + 청킹	O (MD 링크)	복잡한 레이아웃, 다형식
PyMuPDF4LLM	PDF	PDF -> MD 변환	O (MD 링크)	빠른 PDF 전처리

추천 조합: 단순 PDF는 PyMuPDF4LLM → MarkdownHeaderTextSplitter, 복잡한 PDF(표, 다단, 스캔)는 Docling → HybridChunker, 텍스트 문서는 Chonkie RecursiveChunker를 사용합니다.

​도구별 상세 페이지

Docling

PyMuPDF4LLM

​Docling vs PyMuPDF4LLM

​도구 종합 비교

도구별 상세 페이지

Docling vs PyMuPDF4LLM

도구 종합 비교