학습 곡선과 모델 진단
학습 곡선(Learning Curve)은 모델의 과적합/과소적합 상태를 시각적으로 진단하는 도구입니다. SHAP와 특성 중요도는 모델의 예측을 해석하는 데 사용됩니다.학습 목표
- 학습 곡선을 그리고 해석할 수 있습니다.
- 검증 곡선(Validation Curve)으로 하이퍼파라미터의 영향을 분석할 수 있습니다.
- SHAP 값을 활용하여 모델의 예측을 해석할 수 있습니다.
- 특성 중요도(Feature Importance)를 올바르게 해석할 수 있습니다.
왜 중요한가
모델의 성능 수치만으로는 왜 성능이 낮은지, 어떻게 개선할 수 있는지 알 수 없습니다. 학습 곡선은 데이터 추가 vs 모델 복잡도 조절 중 어떤 방향이 효과적인지 판단하는 근거를 제공합니다.핵심 개념
학습 곡선 (Learning Curve)
| 패턴 | 진단 | 해결 방향 |
|---|---|---|
| 학습/검증 모두 낮음 | 과소적합 (높은 편향) | 모델 복잡도 증가, 특성 추가 |
| 학습 높고 검증 낮음 (큰 갭) | 과적합 (높은 분산) | 데이터 추가, 정규화, 단순화 |
| 두 곡선이 수렴하며 높음 | 적절한 모델 | 현재 상태 유지 |
| 검증 곡선이 데이터 증가에 따라 상승 중 | 데이터 부족 | 데이터 추가가 효과적 |
검증 곡선 (Validation Curve)
특성 중요도 (Feature Importance)
SHAP (SHapley Additive exPlanations)
AI/ML에서의 활용
Q: SHAP과 특성 중요도의 차이는 무엇인가요?
Q: SHAP과 특성 중요도의 차이는 무엇인가요?
트리 기반 특성 중요도는 모델 전체의 평균적인 기여도만 보여줍니다. SHAP은 개별 예측에 대해 각 특성이 어떻게 기여했는지 설명하며, 양방향(양성/음성) 영향을 구분할 수 있습니다.
Q: 학습 곡선에서 두 선이 수렴하지 않으면 어떻게 하나요?
Q: 학습 곡선에서 두 선이 수렴하지 않으면 어떻게 하나요?
데이터를 추가하면 두 곡선이 수렴할 가능성이 있습니다. 데이터 추가가 불가능하면 모델 복잡도를 줄이거나 정규화를 강화하세요.
체크리스트
- 학습 곡선의 패턴을 해석할 수 있다
- 검증 곡선으로 하이퍼파라미터 영향을 분석할 수 있다
- 트리 기반 특성 중요도를 시각화할 수 있다
- SHAP 값의 의미를 설명할 수 있다

