도구별 상세 페이지
Docling
IBM Research의 멀티포맷 문서 변환 라이브러리. PDF, DOCX, PPTX, HTML, 이미지를 지원하며 OCR, 레이아웃 분석, VLM 파이프라인을 포함합니다.
PyMuPDF4LLM
PyMuPDF 기반 PDF 전용 변환 도구. 빠른 속도와 정확한 텍스트 추출로 단순 레이아웃 PDF에 최적화되어 있습니다.
Docling vs PyMuPDF4LLM
| 항목 | Docling | PyMuPDF4LLM |
|---|---|---|
| 지원 형식 | PDF, DOCX, PPTX, HTML, 이미지 | PDF 전용 |
| 변환 속도 | 느림 (레이아웃 분석 포함) | 매우 빠름 |
| 레이아웃 분석 | AI 기반 레이아웃 분석 | 규칙 기반 |
| 표 인식 | 복잡한 병합 셀 처리 | 기본 표 변환 |
| 이미지 추출 | 구조화된 메타데이터 포함 | 파일 추출 + MD 링크 |
| OCR | 내장 (다국어 지원) | 미지원 |
| VLM 파이프라인 | 지원 (SmolDocling, GraniteDocling 등) | 미지원 |
| 청킹 | HybridChunker 내장 | 외부 도구 필요 |
| 의존성 | 무거움 (torch 등) | 가벼움 (PyMuPDF만) |
| 적합한 경우 | 복잡한 레이아웃, 다양한 형식 | PDF 빠른 처리, 단순 레이아웃 |
도구 종합 비교
| 도구 | 입력 형식 | 핵심 기능 | 이미지 추출 | 적합한 경우 |
|---|---|---|---|---|
| LangChain Splitters | 텍스트, MD, HTML, Code | 구조 기반 분할 | - | LangChain 파이프라인 |
| Chonkie | 텍스트 | 토큰 기반 경량 청킹 | - | 토큰 관리 + 다양한 전략 |
| Docling | PDF, DOCX, PPTX, HTML | 문서 변환 + 청킹 | O (MD 링크) | 복잡한 레이아웃, 다형식 |
| PyMuPDF4LLM | PDF -> MD 변환 | O (MD 링크) | 빠른 PDF 전처리 |

