Skip to main content
이 섹션은 머신러닝의 기초 개념부터 알고리즘 레퍼런스, 그리고 실무 프로젝트까지를 포괄하는 학습 가이드입니다.

학습 경로

처음이라면 아래 순서대로 학습합니다. 각 단계는 이전 단계를 기반으로 합니다.

학습자 유형별 추천

학습자 유형시작점추천 경로예상 소요
머신러닝 완전 초보ML이란입문 전체 -> 수학(선택) -> 데이터 준비 -> 평가 -> 분류 레퍼런스 -> 프로젝트4-6주
데이터 분석가머신러닝 워크플로우워크플로우 -> 평가 -> 앙상블 -> 파이프라인 -> 프로젝트2-3주
머신러닝 경험자알고리즘 선택 가이드알고리즘 가이드 -> 특정 레퍼런스 -> 파이프라인필요시
통계 전공자머신러닝 워크플로우워크플로우 -> 통계 모델링 -> 시계열 프로젝트1-2주

학습 가이드

머신러닝 입문

ML의 정의, 학습 유형, 워크플로우, 알고리즘 선택 가이드

수학 기초

선형대수, 확률/통계, 최적화, 정보 이론, 미적분 기초

데이터 준비

EDA, 데이터 정제, 특성 공학, 특성 선택, 인코딩/스케일링

모델 평가와 검증

교차검증, 분류/회귀 지표, 과적합, 하이퍼파라미터 튜닝

머신러닝 파이프라인

Scikit-learn Pipeline, 실험 관리(MLflow), 모델 저장/배포

AutoML

Auto-sklearn, AutoGluon, FLAML, Optuna

실무 프로젝트

분류, 회귀, 세분화, 이상 탐지, 시계열 프로젝트

핵심 프레임

머신러닝 실무는 보통 아래 순서로 진행합니다.

지도/비지도/통계 모델의 경계

  • 지도학습(분류/회귀): 라벨이 있는 경우 예측 성능 최적화에 집중합니다.
  • 비지도학습(클러스터링/차원축소/매니폴드): 구조 탐색과 표현 학습에 집중합니다.
  • 통계모델(statsmodels): 계수 해석, 유의성, 시계열 구조 분석에 강점이 있습니다.

검증 전략 기준

  • IID 데이터: K-fold, Stratified K-fold를 기본으로 사용합니다.
  • 시계열 데이터: 시간 순서를 보존하는 split을 사용합니다.
  • 불균형 데이터: PR-AUC, F1, Recall 중심으로 함께 평가합니다.

운영 기준

  • 학습 성능과 추론 비용을 함께 최적화합니다.
  • 데이터 누수 방지를 위해 전처리/샘플링은 파이프라인 내부에서 수행합니다.
  • 모델 교체 시 동일 검증셋/동일 지표로 회귀 테스트를 수행합니다.
실습 링크는 https://mlvlab.baeum.ai.kr/<category>/<slug> 규칙으로 작성했습니다. 최종 서빙 도메인 변경 시 베이스 URL만 교체하면 됩니다.

알고리즘 레퍼런스

분류 (Classification)

입력 데이터를 이산 클래스 라벨로 예측하는 지도학습 영역입니다.

회귀 (Regression)

연속형 타깃 값을 예측하는 지도학습 영역입니다.

앙상블 (Ensemble)

여러 약한 학습기를 조합해 성능과 안정성을 향상시키는 영역입니다.

랭킹 (Learning to Rank)

검색/추천 시나리오에서 결과의 순서를 최적화하는 순위 학습 영역입니다.

클러스터링 (Clustering)

라벨 없이 데이터의 구조를 군집으로 발견하는 비지도학습 영역입니다.

차원 축소 (Dimensionality Reduction)

고차원 데이터를 저차원으로 투영해 시각화/압축/노이즈 제거를 수행합니다.

이상치 탐지 (Anomaly Detection)

정상 패턴과 다른 드문 샘플을 탐지하는 영역입니다.

매니폴드 학습 (Manifold)

국소 구조를 유지하며 저차원 표현을 학습하는 비선형 임베딩 영역입니다.

전처리 (Preprocessing)

모델 학습 전에 데이터 스케일/표현을 정규화하는 단계입니다.

교차 분해 (Cross Decomposition)

두 데이터 블록 간 공분산 구조를 분석하는 다변량 기법입니다.

반지도 학습 (Semi-supervised)

소량의 라벨과 다량의 비라벨 데이터를 함께 활용하는 학습 방식입니다.

불균형 샘플링 (Imbalanced Learning)

클래스 불균형 문제를 오버/언더샘플링으로 완화하는 영역입니다.

통계/시계열 (statsmodels)

통계적 추론, 시계열 분석, 계수 해석을 중심으로 하는 모델군입니다.

공식 문서