Pandas 심화 - 배움 에이아이

Pandas는 데이터 분석 실무에서 가장 많이 쓰는 표 데이터 처리 도구입니다. 이 섹션은 기본 문법을 넘어, 정제·결합·시계열·성능 최적화까지 바로 적용 가능한 구조로 재편했습니다.

카테고리	핵심 주제	문서 수
데이터 구조	Series/DataFrame 생성·연산, IO	4
선택과 인덱싱	loc/iloc, 조건 선택, MultiIndex, 인덱스 설계	5
정제와 결측치	dtype, nullable/arrow, categorical, 결측 패턴·대체	8
결합과 재구조화	merge 계열, 반정형 flatten, pivot/reshape	9
집계와 피처링	groupby 패턴, apply, 윈도우, 체이닝	7
시계열과 성능	time series, 캘린더 피처, 성능·메모리 최적화, 확장 전략	5
품질과 재현성	검증 체크, 회귀 테스트, 데이터 계약 점검, 리포팅	3

빠른 시작 경로

Series와 DataFrame

Pandas 데이터 구조의 기준점을 먼저 맞춥니다.

생성 패턴

Series/DataFrame 생성 시 인덱스와 dtype 정책을 고정합니다.

연산 패턴

벡터화 연산과 정렬/파생 컬럼 패턴을 정리합니다.

인덱싱과 선택

선택 로직의 전체 체계를 정리합니다.

loc / iloc 딥다이브

라벨 기반/위치 기반 선택을 깊게 다룹니다.

조건 선택과 query

복합 조건 필터링을 실무 패턴으로 정리합니다.

MultiIndex 선택

계층형 인덱스 접근과 평탄화 전략을 다룹니다.

인덱스 관리

set/reset/reindex 기준으로 인덱스 운영 규칙을 정리합니다.

결측치 처리

dropna/fillna 기본 전략을 정리합니다.

Categorical 전략

범주형 dtype으로 메모리와 집계 성능을 개선합니다.

Nullable/Arrow dtype

결측 친화 타입과 pyarrow 백엔드 적용 기준을 정리합니다.

결측치 패턴 진단

결측치의 원인과 분포를 먼저 분석합니다.

대체 전략 플레이북

데이터 특성별 대체 규칙을 선택합니다.

Merge 키 설계

결합 전에 키 표준화와 유일성 검증을 수행합니다.

Merge 무결성 검증

validate/indicator로 결합 품질을 수치화합니다.

merge_asof

시간축 기준 근접 시점 조인 패턴을 다룹니다.

merge_ordered

정렬 조인과 보간 기반 이력 결합 패턴을 다룹니다.

반정형 데이터 처리

explode/json_normalize로 nested 데이터를 평탄화합니다.

GroupBy 연산 패턴

agg/transform/filter/apply 구분을 실무 기준으로 정리합니다.

Grouper 시간 버킷

시간 버킷 집계를 다중 키 그룹과 함께 구성합니다.

재구조화 심화

pivot_table, crosstab, stack/unstack를 연결합니다.

Datetime 피처링

시간 피처를 모델 입력 관점으로 설계합니다.

체이닝과 pipe

전처리 흐름을 끊기지 않는 함수형 스타일로 구성합니다.

메모리 최적화

다운캐스팅과 카테고리형으로 메모리 병목을 줄입니다.

성능 최적화

벡터화 중심으로 처리 시간을 단축합니다.

대용량 처리 전략

Pandas 기준선에서 DuckDB/Polars 확장 기준을 정리합니다.

캘린더 피처

휴일/요일 기반 시계열 피처를 설계합니다.

데이터 검증 체크

배치 단계에서 필수 품질 지표를 검증합니다.

테스트/회귀 검증

pandas.testing으로 전처리 회귀를 자동 검증합니다.

Styler 리포팅

분석 결과 테이블을 시각적으로 강조해 공유합니다.

​빠른 시작 경로