Skip to main content
실무 머신러닝 프로젝트에서 데이터 준비는 전체 시간의 60-80%를 차지합니다. 이 섹션은 원본 데이터를 모델이 학습할 수 있는 형태로 변환하는 전 과정을 다룹니다.
단계목적핵심 도구
EDA데이터 이해, 가설 수립pandas, seaborn, matplotlib
데이터 정제결측치, 이상치, 중복 처리pandas, SimpleImputer
특성 공학새로운 특성 생성pandas, PolynomialFeatures
특성 선택유용한 특성만 선별RFE, SelectKBest
인코딩/스케일링범주형 변환, 수치형 정규화OneHotEncoder, StandardScaler
데이터 준비를 체계적으로 수행하면 모델 성능이 크게 향상됩니다. 복잡한 알고리즘보다 좋은 데이터 준비가 더 효과적인 경우가 많습니다.

탐색적 데이터 분석 (EDA)

분포, 상관관계, 시각화를 통한 데이터 탐색

데이터 정제

결측치, 이상치, 중복 데이터 처리

특성 공학

도메인 지식 기반 새로운 특성 생성

특성 선택

Filter/Wrapper/Embedded 방법으로 특성 선별

인코딩과 스케일링

범주형 인코딩과 수치형 스케일링 전처리

언제 쓰나

현재 문제의 목표 지표와 데이터 특성을 먼저 확인한 뒤 적용합니다. 작은 실험셋으로 빠르게 기준 성능을 확인한 뒤, 필요하면 더 복잡한 모델로 확장합니다.

실무 적용 체크리스트

  • 데이터 누수 가능성을 먼저 점검했습니다.
  • 학습/검증/테스트 분할 기준을 고정했습니다.
  • 핵심 지표(예: F1, RMSE, AUC)를 명시했습니다.
  • 베이스라인 대비 개선폭과 비용 변화를 함께 기록했습니다.

자주 나는 실수

  1. 데이터 분할 전에 전처리를 수행해 데이터 누수가 발생합니다.
  2. 단일 지표만 보고 모델을 선택해 운영 성능이 불안정해집니다.
  3. 하이퍼파라미터를 과도하게 조정해 검증셋 과적합이 생깁니다.

다음 문서

다음: 탐색적 데이터 분석 (EDA)

학습 흐름을 이어서 진행합니다.