왜 청킹이 중요한가?
전략 비교 종합
| 전략 | 속도 | 품질 | 비용 | 적합한 경우 |
|---|---|---|---|---|
| Fixed-Size | 매우 빠름 | 낮음 | 무료 | 프로토타이핑 |
| Recursive | 빠름 | 좋음 | 무료 | 대부분의 경우 (기본 선택) |
| Semantic | 느림 | 매우 좋음 | 임베딩 비용 | 높은 검색 정확도 필요 |
| Markdown/HTML/Code | 빠름 | 좋음 | 무료 | 구조화된 문서 |
청크 크기와 오버랩 가이드
| 문서 유형 | 권장 크기 | 오버랩 | 이유 |
|---|---|---|---|
| 기술 문서 | 800~1500자 | 200자 | 개념 단위 보존 |
| FAQ / Q&A | 300~500자 | 50자 | 질문-답변 쌍 유지 |
| 법률 문서 | 1000~2000자 | 300자 | 조항 간 연결 필요 |
| 코드 | 1500~3000자 | 200자 | 함수/클래스 단위 |
| 뉴스 기사 | 500~1000자 | 100자 | 문단 단위 |
세부 전략 가이드
문자 기반 청킹
Fixed-Size와 Recursive Character Splitting의 원리, 파라미터 튜닝, 코드 예제
시맨틱 청킹
임베딩 유사도 기반 분할, breakpoint 설정, 성능 트레이드오프
문서 구조 청킹
Markdown, HTML, Code 전용 청킹과 Chonkie, Docling 활용

