Skip to main content

Attention과 Transformer

Attention 메커니즘은 시퀀스 내에서 중요한 정보에 선택적으로 집중하는 기법이며, Transformer는 이를 핵심 구성요소로 활용하는 아키텍처입니다. 이 섹션에서는 Attention의 기초 개념부터 Transformer의 전체 구조, 그리고 PyTorch 구현까지 단계적으로 학습합니다.
이 콘텐츠는 기존 Deep Learning 탭에서 NLP 탭으로 이동되었습니다. Transformer는 현대 NLP의 근간이 되는 아키텍처로, 사전학습 언어모델(PLM)과 대규모 언어모델(LLM)을 이해하기 위한 필수 선행 지식입니다.

학습 경로

순서주제유형핵심 내용
1Attention 메커니즘개념Bahdanau/Luong Attention, 정렬 점수
2Self-Attention개념Query-Key-Value, Scaled Dot-Product, Multi-Head
3Transformer 아키텍처아키텍처인코더/디코더 스택, 잔차 연결, 정규화
4위치 인코딩개념Sinusoidal, Learned, RoPE, ALiBi
5인코더-디코더 구조 비교아키텍처Encoder-only, Decoder-only, Encoder-Decoder
6PyTorch 구현튜토리얼밑바닥부터 Transformer 구현
Seq2Seq 모델의 한계를 이해하고 있다면 Attention 메커니즘부터 시작하세요. Attention에 익숙하다면 Self-Attention으로 바로 넘어가도 좋습니다.

사전 지식

이 섹션을 학습하기 위해 다음 개념에 대한 이해가 필요합니다.
  • 시퀀스 모델링: RNN, LSTM의 기본 동작 원리
  • 인코더-디코더 패턴: Seq2Seq 모델의 구조
  • PyTorch 기초: nn.Module, 텐서 연산, 자동 미분

문서 목록