회귀 평가 지표
회귀 모델은 연속적인 수치를 예측하므로, 예측값과 실제값 사이의 오차를 다양한 방식으로 측정합니다.학습 목표
- MSE, RMSE, MAE, MAPE의 차이와 적합한 상황을 이해합니다.
- R-squared와 Adjusted R-squared를 올바르게 해석할 수 있습니다.
- 잔차 분석(Residual Analysis)으로 모델의 문제점을 진단할 수 있습니다.
왜 중요한가
주택 가격 예측에서 RMSE가 5만원인지 500만원인지에 따라 모델의 실용 가치가 달라집니다. 또한 동일한 모델이라도 지표에 따라 순위가 바뀔 수 있으므로, 문제에 적합한 지표를 선택해야 합니다.핵심 개념
주요 지표 비교
| 지표 | 특성 | 이상치 민감도 | 적합한 상황 |
|---|---|---|---|
| MSE | 큰 오차에 큰 페널티 | 높음 | 큰 오차를 특히 피해야 할 때 |
| RMSE | MSE의 제곱근 (원래 단위) | 높음 | 결과를 원래 단위로 해석할 때 |
| MAE | 평균 절대 오차 | 낮음 | 이상치가 있을 때 |
| MAPE | 백분율 오차 | 중간 | 스케일이 다른 데이터 비교 |
| R-squared | 0~1 (높을수록 좋음) | 중간 | 모델의 설명력 비교 |
잔차 분석
Q: R-squared가 높으면 항상 좋은 모델인가요?
Q: R-squared가 높으면 항상 좋은 모델인가요?
아닙니다. 특성 수를 늘리면 R-squared는 항상 증가하거나 유지됩니다. 따라서 특성 수를 보정한 Adjusted R-squared를 함께 확인해야 합니다. 또한 R-squared가 높아도 잔차에 패턴이 있으면 모델에 문제가 있습니다.
Q: RMSE와 MAE 중 어떤 것을 써야 하나요?
Q: RMSE와 MAE 중 어떤 것을 써야 하나요?
큰 오차를 특히 피해야 한다면 RMSE, 이상치가 있어서 강건한 지표가 필요하면 MAE를 사용합니다. 두 지표의 차이가 크면 이상치의 영향이 크다는 신호입니다.
체크리스트
- MSE, RMSE, MAE의 차이를 설명할 수 있다
- R-squared 값을 올바르게 해석할 수 있다
- 잔차 분석 그래프를 해석할 수 있다
- 문제 특성에 맞는 회귀 지표를 선택할 수 있다

