Skip to main content
모델 학습 전에 데이터 스케일/표현을 정규화하는 단계입니다.

핵심 개념

  • 스케일링과 수치 안정성
  • 학습/검증 분리 후 fit-transform 적용
  • 파이프라인 고정으로 데이터 누수 방지

자주 보는 평가 지표

  • downstream score change
  • training stability

알고리즘 목록

알고리즘실습 링크공식 문서
MinMax ScalerOpenDocs
PCAOpenDocs
Standard ScalerOpenDocs

참고

언제 쓰나

모델 학습 전 데이터 스케일/분포를 안정화할 때 필수로 적용합니다. 작은 실험셋으로 빠르게 기준 성능을 확인한 뒤, 필요하면 더 복잡한 모델로 확장합니다.

실무 적용 체크리스트

  • 데이터 누수 가능성을 먼저 점검했습니다.
  • 학습/검증/테스트 분할 기준을 고정했습니다.
  • 핵심 지표(예: F1, RMSE, AUC)를 명시했습니다.
  • 베이스라인 대비 개선폭과 비용 변화를 함께 기록했습니다.

자주 나는 실수

  1. 데이터 분할 전에 전처리를 수행해 데이터 누수가 발생합니다.
  2. 단일 지표만 보고 모델을 선택해 운영 성능이 불안정해집니다.
  3. 하이퍼파라미터를 과도하게 조정해 검증셋 과적합이 생깁니다.

다음 문서

다음: MinMax Scaler

학습 흐름을 이어서 진행합니다.