Skip to main content

데이터 전처리

데이터 전처리(Data Preprocessing)는 원시 데이터를 ML 모델이 학습할 수 있는 형태로 변환하는 과정입니다. 결측치 처리, 인코딩, 스케일링, 피처 엔지니어링을 거쳐 최종적으로 sklearn Pipeline으로 자동화합니다.
주제핵심 내용유형
결측치 대체SimpleImputer, KNN Imputer, IterativeImputerTutorial
인코딩Label, One-Hot, Ordinal, Target EncodingEssentials
스케일링/정규화StandardScaler, MinMaxScaler, RobustScalerEssentials
피처 엔지니어링피처 생성, 변환, 선택Tutorial
PipelineColumnTransformer, Pipeline, 데이터 누수 방지Tutorial
전처리 순서가 중요합니다. 일반적으로 결측치 처리 → 인코딩 → 스케일링 순서를 따릅니다. 이 과정을 Pipeline으로 자동화하면 데이터 누수(Data Leakage)를 방지할 수 있습니다.