LSTM과 GRU — 게이트 메커니즘
LSTM(Long Short-Term Memory)과 GRU(Gated Recurrent Unit)는 기본 RNN의 기울기 소실 문제를 게이트 메커니즘으로 해결합니다.핵심 아이디어
게이트(Gate)는 정보의 흐름을 제어하는 밸브 역할을 합니다. Sigmoid 함수(0~1)로 정보를 얼마나 통과시킬지 결정합니다.LSTM
LSTM은 **셀 상태(Cell State)**라는 별도의 정보 고속도로를 유지하여 장기 기억을 보존합니다. 세 개의 게이트(망각, 입력, 출력)로 정보 흐름을 제어합니다.수학적 표현
PyTorch 구현
GRU (Gated Recurrent Unit)
GRU는 LSTM을 단순화한 버전입니다. 셀 상태를 별도로 유지하지 않고, 두 개의 게이트(리셋, 업데이트)만 사용합니다.LSTM vs GRU 비교
| 특성 | LSTM | GRU |
|---|---|---|
| 게이트 수 | 3 (망각, 입력, 출력) | 2 (리셋, 업데이트) |
| 상태 | 은닉 상태 + 셀 상태 | 은닉 상태만 |
| 파라미터 | 많음 | 적음 (~25% 감소) |
| 학습 속도 | 느림 | 빠름 |
| 장기 의존성 | 우수 | 우수 (LSTM과 유사) |
| 선택 기준 | 긴 시퀀스, 복잡한 의존성 | 짧은 시퀀스, 빠른 학습 |
양방향 RNN (Bidirectional)
미래 정보도 활용하기 위해 순방향/역방향 두 개의 RNN을 결합합니다.한계점
한계점
LSTM/GRU는 기본 RNN보다 장기 의존성을 잘 처리하지만, 여전히 시퀀스 길이가 수백 이상이면 성능이 저하됩니다. 또한 순차적 처리 구조로 인해 병렬화가 어려워 학습 속도가 느립니다. 이러한 한계가 Transformer의 Self-Attention 메커니즘 개발의 동기가 되었습니다.
참고 논문
| 논문 | 연도 | 핵심 기여 |
|---|---|---|
| Long Short-Term Memory (Hochreiter & Schmidhuber) | 1997 | LSTM 제안 |
| Learning Phrase Representations using RNN Encoder-Decoder (Cho et al.) | 2014 | GRU 제안 |
| LSTM: A Search Space Odyssey (Greff et al.) | 2017 | LSTM 변형 비교 분석 |

