Attention과 Transformer
Attention 메커니즘은 시퀀스 내에서 중요한 정보에 선택적으로 집중하는 기법이며, Transformer는 이를 핵심 구성요소로 활용하는 아키텍처입니다. 이 섹션에서는 Attention의 기초 개념부터 Transformer의 전체 구조, 그리고 PyTorch 구현까지 단계적으로 학습합니다.이 콘텐츠는 기존 Deep Learning 탭에서 NLP 탭으로 이동되었습니다. Transformer는 현대 NLP의 근간이 되는 아키텍처로, 사전학습 언어모델(PLM)과 대규모 언어모델(LLM)을 이해하기 위한 필수 선행 지식입니다.
학습 경로
| 순서 | 주제 | 유형 | 핵심 내용 |
|---|---|---|---|
| 1 | Attention 메커니즘 | 개념 | Bahdanau/Luong Attention, 정렬 점수 |
| 2 | Self-Attention | 개념 | Query-Key-Value, Scaled Dot-Product, Multi-Head |
| 3 | Transformer 아키텍처 | 아키텍처 | 인코더/디코더 스택, 잔차 연결, 정규화 |
| 4 | 위치 인코딩 | 개념 | Sinusoidal, Learned, RoPE, ALiBi |
| 5 | 인코더-디코더 구조 비교 | 아키텍처 | Encoder-only, Decoder-only, Encoder-Decoder |
| 6 | PyTorch 구현 | 튜토리얼 | 밑바닥부터 Transformer 구현 |
사전 지식
이 섹션을 학습하기 위해 다음 개념에 대한 이해가 필요합니다.- 시퀀스 모델링: RNN, LSTM의 기본 동작 원리
- 인코더-디코더 패턴: Seq2Seq 모델의 구조
- PyTorch 기초:
nn.Module, 텐서 연산, 자동 미분

