ML에서 DL로
학습 목표
- 머신러닝(ML)과 딥러닝(DL)의 핵심 차이를 설명할 수 있다
- sklearn의 MLPClassifier와 PyTorch의 신경망 구현을 비교할 수 있다
- 딥러닝이 필요한 상황과 그렇지 않은 상황을 판단할 수 있다
- 특성 공학(Feature Engineering)에서 표현 학습(Representation Learning)으로의 패러다임 전환을 이해한다
왜 중요한가
머신러닝에서 딥러닝으로의 전환은 단순한 모델 교체가 아닙니다. 사람이 특성을 설계하는 방식에서 모델이 스스로 특성을 학습하는 방식으로의 근본적인 패러다임 전환입니다. 전통적 ML에서는 도메인 전문가가 원시 데이터에서 유의미한 특성을 직접 추출해야 했습니다. 반면 딥러닝은 원시 데이터를 입력받아 계층적으로 추상화된 표현을 자동으로 학습합니다.ML vs DL: 핵심 비교
| 관점 | 전통적 ML | 딥러닝 |
|---|---|---|
| 특성 추출 | 사람이 설계 (Feature Engineering) | 모델이 학습 (Representation Learning) |
| 데이터 요구량 | 수백~수천 샘플 | 수천~수백만 샘플 |
| 해석 가능성 | 높음 (계수, 중요도) | 낮음 (블랙박스) |
| 연산 자원 | CPU로 충분 | GPU 필요 (대규모) |
| 비정형 데이터 | 전처리 필수 | 직접 처리 가능 (이미지, 텍스트, 음성) |
| 모델 크기 | 수백~수천 파라미터 | 수만~수십억 파라미터 |
| 프레임워크 | scikit-learn | PyTorch, TensorFlow |
sklearn MLP vs PyTorch 구현 비교
같은 데이터셋(Iris)에 대해 sklearn의 MLPClassifier와 PyTorch의 신경망 구현을 비교합니다.sklearn MLPClassifier
PyTorch 신경망
핵심 차이 요약
| 구성 요소 | sklearn | PyTorch |
|---|---|---|
| 모델 정의 | hidden_layer_sizes=(64, 32) | nn.Module 클래스 상속 |
| 학습 | model.fit(X, y) | 에포크 루프 직접 작성 |
| 역전파 | 내부 자동 처리 | loss.backward() 명시 호출 |
| 배치 처리 | 내부 자동 처리 | DataLoader 직접 구성 |
| GPU 활용 | 불가 | .to(device) 한 줄로 전환 |
| 커스텀 레이어 | 제한적 | 자유로운 설계 |
딥러닝이 빛나는 영역
딥러닝은 모든 문제에 적합한 것은 아닙니다. 다음과 같은 특성을 가진 문제에서 전통적 ML보다 뚜렷한 이점을 보입니다.비정형 데이터 처리
| 데이터 유형 | 전통적 ML | 딥러닝 |
|---|---|---|
| 이미지 | 수동 특성 추출 (HOG, SIFT) | CNN이 자동 특성 학습 |
| 텍스트 | BoW, TF-IDF → 차원 축소 | 임베딩 → RNN/Transformer |
| 음성 | MFCC 추출 → 분류기 | 원시 파형/스펙트로그램 직접 처리 |
| 동영상 | 프레임별 특성 → 집계 | 3D CNN, Video Transformer |
대규모 데이터에서의 스케일링
데이터가 충분히 많고(수만 건 이상), 특성 공학이 어려운 복잡한 패턴이 존재하며, GPU 자원이 확보된 상황에서 딥러닝은 전통적 ML을 크게 능가합니다.그래도 ML이 나은 경우
- 정형 데이터(테이블)에서 XGBoost, LightGBM이 여전히 강력합니다
- 데이터가 적은 경우(수백 건) 딥러닝은 과적합(Overfitting) 위험이 높습니다
- 해석 가능성이 중요한 경우 선형 모델이나 결정 트리가 적합합니다
- 학습 시간과 비용이 제한된 환경에서는 전통적 ML이 효율적입니다
패러다임 전환: 특성 공학 → 표현 학습
딥러닝의 가장 중요한 개념적 전환은 **표현 학습(Representation Learning)**입니다. 전통적 ML에서는 이미지 분류를 위해 에지 검출, 색상 히스토그램, 텍스처 패턴 등을 사람이 직접 추출해야 했습니다. 반면 CNN은 학습 과정에서 저수준 특성(에지, 코너)부터 고수준 특성(눈, 코, 얼굴)까지 계층적으로 자동 학습합니다. 이러한 계층적 표현 학습이 가능해진 것은 다음 세 가지 요소의 결합 덕분입니다.- 대규모 데이터: ImageNet (1400만 이미지), Wikipedia (수십억 단어)
- GPU 연산 능력: 병렬 행렬 연산으로 학습 시간 단축
- 알고리즘 발전: 역전파, 드롭아웃, 배치 정규화 등 학습 안정화 기법
딥러닝이 오래된 기술이라는데, 왜 최근에야 성공했나요?
딥러닝이 오래된 기술이라는데, 왜 최근에야 성공했나요?
신경망 연구는 1950년대 퍼셉트론에서 시작되었지만, 데이터 부족과 연산 한계로 두 차례의 “AI 겨울”을 겪었습니다. 2012년 AlexNet이 ImageNet 대회에서 기존 방법을 크게 앞지르면서 딥러닝 시대가 열렸습니다. 핵심은 GPU, 빅데이터, 알고리즘이 동시에 성숙한 것입니다.
정형 데이터에서도 딥러닝을 써야 하나요?
정형 데이터에서도 딥러닝을 써야 하나요?
일반적으로 정형(tabular) 데이터에서는 XGBoost, LightGBM 등 그래디언트 부스팅 계열 모델이 딥러닝과 동등하거나 더 좋은 성능을 보입니다. TabNet, FT-Transformer 등 정형 데이터 특화 딥러닝 모델이 연구되고 있지만, 실무에서는 여전히 부스팅 모델이 더 많이 사용됩니다.
PyTorch와 TensorFlow 중 어느 것을 배워야 하나요?
PyTorch와 TensorFlow 중 어느 것을 배워야 하나요?
이 교육 과정에서는 PyTorch를 사용합니다. 2024년 기준 연구 커뮤니티와 산업 현장 모두에서 PyTorch가 지배적이며, Hugging Face, Meta AI, OpenAI 등 주요 연구 기관이 PyTorch를 기본 프레임워크로 채택하고 있습니다.
체크리스트
- ML과 DL의 핵심 차이(특성 공학 vs 표현 학습)를 설명할 수 있다
- sklearn MLPClassifier 코드를 읽고 각 파라미터의 역할을 이해한다
- PyTorch 학습 루프의 5단계(zero_grad → forward → loss → backward → step)를 이해한다
- 주어진 문제에 ML과 DL 중 적합한 접근을 판단할 수 있다

