옵티마이저

학습 목표

경사 하강법(Gradient Descent)의 기본 원리를 이해한다
SGD, Momentum, Adam, AdamW의 동작 방식을 비교할 수 있다
학습률(Learning Rate)의 역할과 적절한 설정 방법을 안다
실무에서 옵티마이저를 선택하는 기준을 이해한다

왜 중요한가

옵티마이저는 역전파로 계산된 기울기를 사용하여 가중치를 업데이트하는 알고리즘입니다. 같은 모델이라도 옵티마이저의 선택에 따라 학습 속도, 수렴 안정성, 최종 성능이 크게 달라집니다.

SGD (Stochastic Gradient Descent)

가장 기본적인 옵티마이저입니다. 기울기의 반대 방향으로 학습률만큼 가중치를 업데이트합니다.

w_{t+1} = w_t - \eta \cdot \nabla_w \mathcal{L}

$w_t$ : 현재 가중치
$\eta$ : 학습률 (Learning Rate)
$\nabla_w \mathcal{L}$ : 손실 함수의 가중치에 대한 기울기

import torch
import torch.nn as nn

model = nn.Linear(10, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 학습 스텝
x = torch.randn(32, 10)
target = torch.randn(32, 1)

output = model(x)
loss = nn.MSELoss()(output, target)

optimizer.zero_grad()   # 기울기 초기화
loss.backward()         # 기울기 계산
optimizer.step()        # 가중치 업데이트: w = w - lr * grad

한계: 모든 파라미터에 동일한 학습률을 적용하며, 기울기의 노이즈에 민감하여 진동하기 쉽습니다.

SGD + Momentum

물리학의 관성 개념을 도입합니다. 이전 기울기의 방향을 기억하여 일관된 방향으로의 업데이트를 가속합니다.

v_t = \beta v_{t-1} + \nabla_w \mathcal{L}

w_{t+1} = w_t - \eta \cdot v_t

$v_t$ : 속도 (이전 기울기의 지수 이동 평균)
$\beta$ : 모멘텀 계수 (보통 0.9)

optimizer = torch.optim.SGD(
    model.parameters(),
    lr=0.01,
    momentum=0.9      # 모멘텀 계수
)

Momentum은 좁고 긴 계곡(ravine) 형태의 손실 표면에서 SGD보다 훨씬 빠르게 수렴합니다.

Adam (Adaptive Moment Estimation)

모멘텀과 적응적 학습률을 결합한 옵티마이저입니다. 파라미터별로 학습률을 자동 조정합니다.

m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t \quad \text{(1차 모멘트, 평균)}

v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \quad \text{(2차 모멘트, 분산)}

\hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \quad \text{(편향 보정)}

w_{t+1} = w_t - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}

optimizer = torch.optim.Adam(
    model.parameters(),
    lr=0.001,          # 기본 학습률
    betas=(0.9, 0.999),  # (β₁, β₂)
    eps=1e-8           # 수치 안정성
)

장점: 학습률 설정에 덜 민감하고, 대부분의 문제에서 안정적으로 수렴합니다.

AdamW (Adam with Weight Decay)

Adam에서 가중치 감쇠(Weight Decay)를 올바르게 적용한 버전입니다. 일반 Adam의 L2 정규화와 Weight Decay는 적응적 학습률 하에서 동일하지 않다는 점을 수정합니다.

w_{t+1} = (1 - \lambda) w_t - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}

$\lambda$ : 가중치 감쇠 계수

optimizer = torch.optim.AdamW(
    model.parameters(),
    lr=0.001,
    weight_decay=0.01   # 가중치 감쇠
)

Transformer 계열 모델(BERT, GPT 등)의 표준 옵티마이저입니다. Fine-Tuning에서도 AdamW가 기본으로 사용됩니다.