최적화 기초
최적화(Optimization)는 손실 함수를 최소화하는 파라미터를 찾는 과정으로, 모든 ML 학습 알고리즘의 핵심 엔진입니다.학습 목표
- 손실 함수(Loss Function)의 역할과 종류를 이해합니다.
- 경사 하강법(Gradient Descent)의 원리와 변형을 파악합니다.
- 학습률(Learning Rate)이 학습에 미치는 영향을 이해합니다.
- 볼록 최적화(Convex Optimization)의 기본 개념을 학습합니다.
왜 중요한가
ML 모델을 “학습한다”는 것은 곧 손실 함수를 최소화하는 파라미터를 찾는 최적화 문제를 푸는 것입니다. 경사 하강법을 이해하면 학습률 설정, 수렴 문제 진단, 최적화 알고리즘 선택의 근거를 갖추게 됩니다.핵심 개념
손실 함수 (Loss Function)
모델의 예측과 실제 값 사이의 차이를 수치로 측정합니다.경사 하강법 (Gradient Descent)
손실 함수의 기울기(그래디언트)를 따라 파라미터를 반복적으로 갱신합니다. 핵심 아이디어: 산에서 내려갈 때 가장 경사가 급한 방향으로 한 걸음씩 내딛는 것과 같습니다.경사 하강법 변형
| 변형 | 배치 크기 | 특징 | 장단점 |
|---|---|---|---|
| 배치 GD | 전체 데이터 | 안정적 수렴 | 느림, 메모리 많이 사용 |
| 확률적 GD (SGD) | 1개 샘플 | 빠른 갱신 | 노이즈 많음, 불안정 |
| 미니배치 GD | n개 샘플 | 균형 잡힌 접근 | 실무에서 가장 많이 사용 |
학습률 (Learning Rate)
학습률은 경사 하강법에서 가장 중요한 하이퍼파라미터입니다.| 학습률 | 영향 |
|---|---|
| 너무 큰 경우 | 발산 — 최솟값을 지나쳐서 손실이 오히려 증가 |
| 너무 작은 경우 | 수렴이 매우 느림 — 학습 시간 과다 |
| 적절한 경우 | 빠르고 안정적으로 최솟값에 수렴 |
볼록 최적화 (Convex Optimization)
- 볼록 함수: 지역 최솟값 = 전역 최솟값인 함수입니다. 선형 회귀의 MSE 손실이 대표적입니다.
- 비볼록 함수: 여러 지역 최솟값이 존재합니다. 신경망의 손실 함수가 해당합니다.
AI/ML에서의 활용
| 알고리즘 | 최적화 방법 | 손실 함수 |
|---|---|---|
| 선형 회귀 | 정규방정식 or GD | MSE |
| 로지스틱 회귀 | GD / L-BFGS | Cross-Entropy |
| SVM | QP (이차 계획법) | Hinge Loss |
| SGD Classifier | SGD | 다양한 선택 가능 |
| XGBoost | 2차 근사 최적화 | 커스텀 가능 |
Q: 경사 하강법 외에 다른 최적화 방법이 있나요?
Q: 경사 하강법 외에 다른 최적화 방법이 있나요?
네. Adam, RMSProp, AdaGrad 등의 적응형 학습률 방법이 딥러닝에서 많이 사용됩니다. scikit-learn에서는 L-BFGS, Newton-CG 등의 2차 최적화 방법도 사용합니다.
Q: 정규화(Regularization)는 최적화와 어떤 관계인가요?
Q: 정규화(Regularization)는 최적화와 어떤 관계인가요?
정규화는 손실 함수에 파라미터 크기에 대한 페널티를 추가합니다. L1 정규화(Lasso)는 |w|를, L2 정규화(Ridge)는 w^2를 더합니다. → 과적합과 과소적합
체크리스트
- MSE와 Cross-Entropy 손실 함수의 차이를 설명할 수 있다
- 경사 하강법의 갱신 규칙을 설명할 수 있다
- 학습률이 학습에 미치는 영향을 설명할 수 있다
- 볼록 함수와 비볼록 함수의 차이를 이해한다

