앞서 학습한 데이터 준비, 모델 선택, 평가, 파이프라인 기법을 종합하여 실제 문제를 처음부터 끝까지 해결하는 프로젝트입니다.
프로젝트 선택 가이드
| 프로젝트 | 난이도 | 핵심 기법 | 사용 알고리즘 | 예상 소요 |
|---|
| 정형 데이터 분류 | 입문 | EDA, 전처리, 모델 비교 | 로지스틱 회귀, RF, XGBoost | 2-3시간 |
| 수치 예측 | 입문 | 특성 공학, 정규화 | 선형 회귀, Ridge, GBM | 2-3시간 |
| 고객 세분화 | 중급 | 클러스터링, 차원 축소 | K-Means, PCA, DBSCAN | 3-4시간 |
| 이상 탐지 | 중급 | 불균형 처리, 이상치 모델 | Isolation Forest, SMOTE | 3-4시간 |
| 시계열 예측 | 고급 | 시계열 분해, 시계열 CV | ARIMA, Prophet, LightGBM | 4-5시간 |
학습자 유형별 추천 순서
| 학습자 | 추천 시작 프로젝트 | 이유 |
|---|
| 머신러닝 완전 초보 | 정형 데이터 분류 | 가장 기본적인 워크플로우를 체험 |
| 데이터 분석가 | 고객 세분화 | 분석 경험을 ML로 확장 |
| 통계 전공자 | 시계열 예측 | 통계 지식을 활용 가능 |
| 실무 적용 목적 | 이상 탐지 | 비즈니스 임팩트가 높은 문제 |
각 프로젝트는 독립적으로 수행할 수 있지만, 머신러닝 입문자라면 “정형 데이터 분류 -> 수치 예측 -> 고객 세분화” 순서를 추천합니다.
정형 데이터 분류
EDA부터 모델 평가까지 전체 분류 파이프라인
수치 예측 프로젝트
특성 공학 중심의 회귀 프로젝트
고객 세분화
클러스터링과 차원 축소 결합 프로젝트
이상 탐지 프로젝트
불균형 데이터와 이상치 모델 프로젝트
시계열 예측
ARIMA와 머신러닝 모델을 비교하는 시계열 프로젝트