이 콘텐츠는 기존 Deep Learning 탭에서 NLP 탭으로 이동되었습니다. Transformer는 현대 NLP의 근간이 되는 아키텍처로, 사전학습 언어모델(PLM)과 대규모 언어모델(LLM)을 이해하기 위한 필수 선행 지식입니다.
학습 경로
| 순서 | 주제 | 유형 | 핵심 내용 |
|---|---|---|---|
| 1 | Attention 메커니즘 | 개념 | Bahdanau/Luong Attention, 정렬 점수 |
| 2 | Self-Attention | 개념 | Query-Key-Value, Scaled Dot-Product, Multi-Head |
| 3 | Transformer 아키텍처 | 아키텍처 | 인코더/디코더 스택, 잔차 연결, 정규화 |
| 4 | 위치 인코딩 | 개념 | Sinusoidal, Learned, RoPE, ALiBi |
| 5 | 인코더-디코더 구조 비교 | 아키텍처 | Encoder-only, Decoder-only, Encoder-Decoder |
| 6 | PyTorch 구현 | 튜토리얼 | 밑바닥부터 Transformer 구현 |
사전 지식
이 섹션을 학습하기 위해 다음 개념에 대한 이해가 필요합니다.- 시퀀스 모델링: RNN, LSTM의 기본 동작 원리
- 인코더-디코더 패턴: Seq2Seq 모델의 구조
- PyTorch 기초:
nn.Module, 텐서 연산, 자동 미분
문서 목록
Attention 메커니즘
Bahdanau/Luong Attention과 정렬 점수의 원리
Self-Attention
Query-Key-Value와 Multi-Head Attention
Transformer 아키텍처
“Attention Is All You Need” 논문의 전체 구조 분석
위치 인코딩
Sinusoidal, RoPE, ALiBi 등 위치 표현 기법
인코더-디코더 구조 비교
BERT, GPT, T5로 대표되는 세 가지 패러다임
PyTorch 구현
밑바닥부터 Transformer를 직접 구현하는 튜토리얼

