| 주제 | 핵심 질문 |
|---|---|
| 데이터 분할 | 학습/검증/테스트를 어떻게 나누는가? |
| 교차검증 | 분할 방식에 따른 편향을 어떻게 줄이는가? |
| 분류 평가 지표 | Accuracy, F1, ROC-AUC 중 무엇을 쓸 것인가? |
| 회귀 평가 지표 | MSE, R-squared 중 무엇이 적합한가? |
| 과적합/과소적합 | 모델 복잡도를 어떻게 조절하는가? |
| 하이퍼파라미터 튜닝 | 최적의 설정을 어떻게 찾는가? |
| 학습 곡선 | 모델의 문제를 어떻게 진단하는가? |
학습/테스트 분할
홀드아웃, 계층적 분할, 데이터 누수 방지
교차검증
K-Fold, Stratified K-Fold, Nested CV
분류 평가 지표
Accuracy, F1, ROC-AUC, PR-AUC
회귀 평가 지표
MSE, RMSE, MAE, R-squared
과적합과 과소적합
편향-분산 트레이드오프, 정규화
하이퍼파라미터 튜닝
GridSearch, RandomSearch, Optuna
학습 곡선과 모델 진단
학습 곡선 해석, SHAP, 특성 중요도
언제 쓰나
현재 문제의 목표 지표와 데이터 특성을 먼저 확인한 뒤 적용합니다. 작은 실험셋으로 빠르게 기준 성능을 확인한 뒤, 필요하면 더 복잡한 모델로 확장합니다.실무 적용 체크리스트
- 데이터 누수 가능성을 먼저 점검했습니다.
- 학습/검증/테스트 분할 기준을 고정했습니다.
- 핵심 지표(예: F1, RMSE, AUC)를 명시했습니다.
- 베이스라인 대비 개선폭과 비용 변화를 함께 기록했습니다.
자주 나는 실수
- 데이터 분할 전에 전처리를 수행해 데이터 누수가 발생합니다.
- 단일 지표만 보고 모델을 선택해 운영 성능이 불안정해집니다.
- 하이퍼파라미터를 과도하게 조정해 검증셋 과적합이 생깁니다.
다음 문서
다음: 학습/테스트 분할
학습 흐름을 이어서 진행합니다.

