Skip to main content
모델을 학습하는 것만큼 중요한 것이 올바른 평가입니다. 잘못된 평가 전략은 실제로는 성능이 낮은 모델을 선택하거나, 과적합된 모델을 배포하는 결과를 초래합니다.
주제핵심 질문
데이터 분할학습/검증/테스트를 어떻게 나누는가?
교차검증분할 방식에 따른 편향을 어떻게 줄이는가?
분류 평가 지표Accuracy, F1, ROC-AUC 중 무엇을 쓸 것인가?
회귀 평가 지표MSE, R-squared 중 무엇이 적합한가?
과적합/과소적합모델 복잡도를 어떻게 조절하는가?
하이퍼파라미터 튜닝최적의 설정을 어떻게 찾는가?
학습 곡선모델의 문제를 어떻게 진단하는가?
평가 지표는 비즈니스 목표와 일치해야 합니다. 의료 진단에서는 재현율(Recall)이, 스팸 필터에서는 정밀도(Precision)가 더 중요할 수 있습니다.

학습/테스트 분할

홀드아웃, 계층적 분할, 데이터 누수 방지

교차검증

K-Fold, Stratified K-Fold, Nested CV

분류 평가 지표

Accuracy, F1, ROC-AUC, PR-AUC

회귀 평가 지표

MSE, RMSE, MAE, R-squared

과적합과 과소적합

편향-분산 트레이드오프, 정규화

하이퍼파라미터 튜닝

GridSearch, RandomSearch, Optuna

학습 곡선과 모델 진단

학습 곡선 해석, SHAP, 특성 중요도

언제 쓰나

현재 문제의 목표 지표와 데이터 특성을 먼저 확인한 뒤 적용합니다. 작은 실험셋으로 빠르게 기준 성능을 확인한 뒤, 필요하면 더 복잡한 모델로 확장합니다.

실무 적용 체크리스트

  • 데이터 누수 가능성을 먼저 점검했습니다.
  • 학습/검증/테스트 분할 기준을 고정했습니다.
  • 핵심 지표(예: F1, RMSE, AUC)를 명시했습니다.
  • 베이스라인 대비 개선폭과 비용 변화를 함께 기록했습니다.

자주 나는 실수

  1. 데이터 분할 전에 전처리를 수행해 데이터 누수가 발생합니다.
  2. 단일 지표만 보고 모델을 선택해 운영 성능이 불안정해집니다.
  3. 하이퍼파라미터를 과도하게 조정해 검증셋 과적합이 생깁니다.

다음 문서

다음: 학습/테스트 분할

학습 흐름을 이어서 진행합니다.