Skip to main content
데이터 전처리(Data Preprocessing)는 원시 데이터를 머신러닝 모델이 학습할 수 있는 형태로 변환하는 과정입니다. 결측치 처리, 인코딩, 스케일링, 피처 엔지니어링을 거쳐 최종적으로 sklearn Pipeline으로 자동화합니다.
주제핵심 내용유형
결측치 대체SimpleImputer, KNN Imputer, IterativeImputerTutorial
인코딩Label, One-Hot, Ordinal, Target EncodingEssentials
스케일링/정규화StandardScaler, MinMaxScaler, RobustScalerEssentials
피처 엔지니어링피처 생성, 변환, 선택Tutorial
PipelineColumnTransformer, Pipeline, 데이터 누수 방지Tutorial
전처리 순서가 중요합니다. 일반적으로 결측치 처리 → 인코딩 → 스케일링 순서를 따릅니다. 이 과정을 Pipeline으로 자동화하면 데이터 누수(Data Leakage)를 방지할 수 있습니다.

결측치 대체

SimpleImputer, KNN Imputer, IterativeImputer

인코딩

Label, One-Hot, Ordinal, Target Encoding

스케일링/정규화

StandardScaler, MinMaxScaler, RobustScaler

피처 엔지니어링

피처 생성, 변환, 선택 기법

Pipeline

sklearn Pipeline으로 전처리 자동화

학습 목표

  • 이 문서의 핵심 개념을 실제 프로젝트 시나리오로 연결할 수 있습니다.
  • 최소 1개 실습 과제를 수행하고 결과를 비교할 수 있습니다.
  • 다음 단계에서 필요한 입력 데이터/도구를 준비할 수 있습니다.

실무 적용 체크리스트

  • 실험/운영에서 사용할 평가 지표를 먼저 정했습니다.
  • 베이스라인과 비교할 기준 조건을 고정했습니다.
  • 실패 시 복구 또는 롤백 기준을 문서화했습니다.
  • 팀 공유 문서에 적용 결과를 기록했습니다.

다음 문서

다음: 결측치 대체

학습 흐름을 이어서 진행합니다.