Skip to main content

데이터 준비

실무 ML 프로젝트에서 데이터 준비는 전체 시간의 60-80%를 차지합니다. 이 섹션은 원본 데이터를 모델이 학습할 수 있는 형태로 변환하는 전 과정을 다룹니다.
단계목적핵심 도구
EDA데이터 이해, 가설 수립pandas, seaborn, matplotlib
데이터 정제결측치, 이상치, 중복 처리pandas, SimpleImputer
특성 공학새로운 특성 생성pandas, PolynomialFeatures
특성 선택유용한 특성만 선별RFE, SelectKBest
인코딩/스케일링범주형 변환, 수치형 정규화OneHotEncoder, StandardScaler
데이터 준비를 체계적으로 수행하면 모델 성능이 크게 향상됩니다. 복잡한 알고리즘보다 좋은 데이터 준비가 더 효과적인 경우가 많습니다.