핵심 개념
- 스케일링과 수치 안정성
- 학습/검증 분리 후 fit-transform 적용
- 파이프라인 고정으로 데이터 누수 방지
자주 보는 평가 지표
downstream score changetraining stability
알고리즘 목록
| 알고리즘 | 실습 링크 | 공식 문서 |
|---|---|---|
| MinMax Scaler | Open | Docs |
| PCA | Open | Docs |
| Standard Scaler | Open | Docs |
참고
언제 쓰나
모델 학습 전 데이터 스케일/분포를 안정화할 때 필수로 적용합니다. 작은 실험셋으로 빠르게 기준 성능을 확인한 뒤, 필요하면 더 복잡한 모델로 확장합니다.실무 적용 체크리스트
- 데이터 누수 가능성을 먼저 점검했습니다.
- 학습/검증/테스트 분할 기준을 고정했습니다.
- 핵심 지표(예: F1, RMSE, AUC)를 명시했습니다.
- 베이스라인 대비 개선폭과 비용 변화를 함께 기록했습니다.
자주 나는 실수
- 데이터 분할 전에 전처리를 수행해 데이터 누수가 발생합니다.
- 단일 지표만 보고 모델을 선택해 운영 성능이 불안정해집니다.
- 하이퍼파라미터를 과도하게 조정해 검증셋 과적합이 생깁니다.
다음 문서
다음: MinMax Scaler
학습 흐름을 이어서 진행합니다.

