VAE (Variational Autoencoder)
학습 목표
- VAE가 오토인코더와 다른 점(확률적 잠재 공간)을 이해한다
- ELBO(Evidence Lower Bound)의 두 항을 설명할 수 있다
- 재매개변수화 트릭(Reparameterization Trick)의 필요성과 원리를 안다
- KL Divergence의 역할을 이해한다
왜 중요한가
변분 오토인코더(Variational Autoencoder, VAE)는 잠재 공간에 확률 분포 구조를 부여합니다. 기본 오토인코더와 달리 잠재 공간에서 의미 있는 샘플링이 가능하여, 새로운 데이터를 생성할 수 있습니다. 생성 모델의 이론적 기초이며, Diffusion 모델의 Latent Space 설계에도 영향을 줍니다.구조
수학적 배경
ELBO (Evidence Lower Bound)
VAE는 데이터의 로그 가능도 의 하한(Lower Bound)을 최대화합니다.| 항 | 의미 | 역할 |
|---|---|---|
| 재구성 항 | 입력을 잘 복원하도록 유도 | |
| KL 항 | 잠재 분포를 사전 분포 에 가깝게 유도 |
KL Divergence (가우시안 폐쇄형)
인코더 출력이 가우시안일 때 KL Divergence의 해석적 해:재매개변수화 트릭
에서 직접 샘플링하면 기울기 전파가 불가능합니다. 재매개변수화 트릭으로 확률적 노드를 우회합니다. 이렇게 하면 가 와 에 대해 미분 가능해져 역전파가 가능합니다.구현
손실 함수
학습
잠재 공간에서 생성
β-VAE
로 설정하면 KL 항의 비중이 커져 분리된(Disentangled) 표현을 학습합니다. 각 잠재 차원이 독립적인 의미를 가지게 됩니다.| β 값 | 재구성 품질 | 잠재 공간 구조 | 특징 |
|---|---|---|---|
| 0.5 | 높음 | 약한 구조 | 재구성 중시 |
| 1.0 | 보통 | 표준 | 원래 VAE |
| 4.0 | 낮음 | 분리된 표현 | β-VAE |
VAE의 생성 품질 한계
VAE의 생성 품질 한계
VAE는 재구성 손실로 MSE 또는 BCE를 사용하기 때문에, 생성된 이미지가 흐릿한(blurry) 경향이 있습니다. 이는 평균적인 픽셀 값을 학습하기 때문입니다. 선명한 이미지를 생성하려면 GAN의 적대적 학습이 더 효과적이며, 이를 결합한 VAE-GAN 같은 하이브리드 모델도 연구되었습니다.
참고 논문
| 논문 | 학회/연도 | 핵심 기여 |
|---|---|---|
| Auto-Encoding Variational Bayes (Kingma & Welling) | ICLR 2014 | VAE 제안, 재매개변수화 트릭 |
| β-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework (Higgins et al.) | ICLR 2017 | 분리된 표현 학습 |
체크리스트
- VAE와 AE의 차이(확률적 잠재 공간)를 설명할 수 있다
- ELBO의 재구성 항과 KL 항의 역할을 안다
- 재매개변수화 트릭의 필요성을 설명할 수 있다
- 잠재 공간에서 샘플링과 보간을 이해한다

