데이터 전처리 - 배움 에이아이

데이터 전처리(Data Preprocessing)는 원시 데이터를 머신러닝 모델이 학습할 수 있는 형태로 변환하는 과정입니다. 결측치 처리, 인코딩, 스케일링, 피처 엔지니어링을 거쳐 최종적으로 sklearn Pipeline으로 자동화합니다.

주제	핵심 내용	유형
결측치 대체	SimpleImputer, KNN Imputer, IterativeImputer	Tutorial
인코딩	Label, One-Hot, Ordinal, Target Encoding	Essentials
스케일링/정규화	StandardScaler, MinMaxScaler, RobustScaler	Essentials
피처 엔지니어링	피처 생성, 변환, 선택	Tutorial
Pipeline	ColumnTransformer, Pipeline, 데이터 누수 방지	Tutorial

전처리 순서가 중요합니다. 일반적으로 결측치 처리 → 인코딩 → 스케일링 순서를 따릅니다. 이 과정을 Pipeline으로 자동화하면 데이터 누수(Data Leakage)를 방지할 수 있습니다.

결측치 대체

SimpleImputer, KNN Imputer, IterativeImputer

Label, One-Hot, Ordinal, Target Encoding

StandardScaler, MinMaxScaler, RobustScaler

피처 생성, 변환, 선택 기법

sklearn Pipeline으로 전처리 자동화

학습 흐름을 이어서 진행합니다.