1단계: Pandas 내 최적화
- 필요한 컬럼만 로딩 (
usecols) - 적절한 dtype 지정 (
dtype,category, nullable dtype) - chunk 처리 (
chunksize) - 벡터화 우선,
apply최소화
2단계: DuckDB/Polars 병행
| 도구 | 강점 | 추천 단계 |
|---|---|---|
| DuckDB | SQL 집계/조인 속도 | 대용량 집계 전처리 |
| Polars | 병렬/지연 실행 | 복잡 변환 파이프라인 |
Pandas ↔ DuckDB 예시
의사결정 기준
- 단일 노드 메모리 한계에 자주 도달하는가
- 조인/집계 단계가 전체 시간의 대부분을 차지하는가
- 팀이 SQL 또는 Polars 문법을 운영할 준비가 되었는가

