데이터 전처리
데이터 전처리(Data Preprocessing)는 원시 데이터를 ML 모델이 학습할 수 있는 형태로 변환하는 과정입니다. 결측치 처리, 인코딩, 스케일링, 피처 엔지니어링을 거쳐 최종적으로 sklearn Pipeline으로 자동화합니다.
| 주제 | 핵심 내용 | 유형 |
|---|
| 결측치 대체 | SimpleImputer, KNN Imputer, IterativeImputer | Tutorial |
| 인코딩 | Label, One-Hot, Ordinal, Target Encoding | Essentials |
| 스케일링/정규화 | StandardScaler, MinMaxScaler, RobustScaler | Essentials |
| 피처 엔지니어링 | 피처 생성, 변환, 선택 | Tutorial |
| Pipeline | ColumnTransformer, Pipeline, 데이터 누수 방지 | Tutorial |
전처리 순서가 중요합니다. 일반적으로 결측치 처리 → 인코딩 → 스케일링 순서를 따릅니다. 이 과정을 Pipeline으로 자동화하면 데이터 누수(Data Leakage)를 방지할 수 있습니다.