| 단계 | 목적 | 핵심 도구 |
|---|---|---|
| EDA | 데이터 이해, 가설 수립 | pandas, seaborn, matplotlib |
| 데이터 정제 | 결측치, 이상치, 중복 처리 | pandas, SimpleImputer |
| 특성 공학 | 새로운 특성 생성 | pandas, PolynomialFeatures |
| 특성 선택 | 유용한 특성만 선별 | RFE, SelectKBest |
| 인코딩/스케일링 | 범주형 변환, 수치형 정규화 | OneHotEncoder, StandardScaler |
탐색적 데이터 분석 (EDA)
분포, 상관관계, 시각화를 통한 데이터 탐색
데이터 정제
결측치, 이상치, 중복 데이터 처리
특성 공학
도메인 지식 기반 새로운 특성 생성
특성 선택
Filter/Wrapper/Embedded 방법으로 특성 선별
인코딩과 스케일링
범주형 인코딩과 수치형 스케일링 전처리
언제 쓰나
현재 문제의 목표 지표와 데이터 특성을 먼저 확인한 뒤 적용합니다. 작은 실험셋으로 빠르게 기준 성능을 확인한 뒤, 필요하면 더 복잡한 모델로 확장합니다.실무 적용 체크리스트
- 데이터 누수 가능성을 먼저 점검했습니다.
- 학습/검증/테스트 분할 기준을 고정했습니다.
- 핵심 지표(예: F1, RMSE, AUC)를 명시했습니다.
- 베이스라인 대비 개선폭과 비용 변화를 함께 기록했습니다.
자주 나는 실수
- 데이터 분할 전에 전처리를 수행해 데이터 누수가 발생합니다.
- 단일 지표만 보고 모델을 선택해 운영 성능이 불안정해집니다.
- 하이퍼파라미터를 과도하게 조정해 검증셋 과적합이 생깁니다.
다음 문서
다음: 탐색적 데이터 분석 (EDA)
학습 흐름을 이어서 진행합니다.

