데이터 준비 - 배움 에이아이

실무 머신러닝 프로젝트에서 데이터 준비는 전체 시간의 60-80%를 차지합니다. 이 섹션은 원본 데이터를 모델이 학습할 수 있는 형태로 변환하는 전 과정을 다룹니다.

단계	목적	핵심 도구
EDA	데이터 이해, 가설 수립	pandas, seaborn, matplotlib
데이터 정제	결측치, 이상치, 중복 처리	pandas, SimpleImputer
특성 공학	새로운 특성 생성	pandas, PolynomialFeatures
특성 선택	유용한 특성만 선별	RFE, SelectKBest
인코딩/스케일링	범주형 변환, 수치형 정규화	OneHotEncoder, StandardScaler

데이터 준비를 체계적으로 수행하면 모델 성능이 크게 향상됩니다. 복잡한 알고리즘보다 좋은 데이터 준비가 더 효과적인 경우가 많습니다.

탐색적 데이터 분석 (EDA)

분포, 상관관계, 시각화를 통한 데이터 탐색

결측치, 이상치, 중복 데이터 처리

도메인 지식 기반 새로운 특성 생성

Filter/Wrapper/Embedded 방법으로 특성 선별

범주형 인코딩과 수치형 스케일링 전처리

현재 문제의 목표 지표와 데이터 특성을 먼저 확인한 뒤 적용합니다. 작은 실험셋으로 빠르게 기준 성능을 확인한 뒤, 필요하면 더 복잡한 모델로 확장합니다.

학습 흐름을 이어서 진행합니다.