Skip to main content
머신러닝 파이프라인은 전처리, 모델 학습, 예측을 하나의 재현 가능한 워크플로우로 묶어주는 구조입니다. 데이터 누수를 방지하고, 코드 재사용성을 높이며, 실험을 체계적으로 관리할 수 있습니다.
주제핵심 도구목적
Scikit-learn PipelinePipeline, ColumnTransformer전처리 + 모델 통합, 데이터 누수 방지
실험 관리MLflow하이퍼파라미터, 메트릭, 모델 버전 기록
모델 저장/배포joblib, ONNX학습된 모델의 직렬화, 포맷 변환
파이프라인을 사용하면 fittransform의 순서를 자동으로 관리해주므로, 데이터 누수를 원천적으로 방지할 수 있습니다.

Scikit-learn Pipeline

Pipeline, ColumnTransformer로 전처리와 모델을 통합합니다.

실험 관리 (MLflow)

MLflow로 실험 파라미터, 메트릭, 모델을 체계적으로 기록합니다.

모델 저장과 배포

학습된 모델을 저장하고 재사용하는 방법을 학습합니다.

언제 쓰나

현재 문제의 목표 지표와 데이터 특성을 먼저 확인한 뒤 적용합니다. 작은 실험셋으로 빠르게 기준 성능을 확인한 뒤, 필요하면 더 복잡한 모델로 확장합니다.

실무 적용 체크리스트

  • 데이터 누수 가능성을 먼저 점검했습니다.
  • 학습/검증/테스트 분할 기준을 고정했습니다.
  • 핵심 지표(예: F1, RMSE, AUC)를 명시했습니다.
  • 베이스라인 대비 개선폭과 비용 변화를 함께 기록했습니다.

자주 나는 실수

  1. 데이터 분할 전에 전처리를 수행해 데이터 누수가 발생합니다.
  2. 단일 지표만 보고 모델을 선택해 운영 성능이 불안정해집니다.
  3. 하이퍼파라미터를 과도하게 조정해 검증셋 과적합이 생깁니다.

다음 문서

다음: Scikit-learn Pipeline

학습 흐름을 이어서 진행합니다.