학습 목표
- 딥러닝 아키텍처의 주요 계보(MLP, CNN, RNN, Transformer, 생성 모델)를 구분할 수 있다
- 각 아키텍처가 해결하는 문제 유형과 응용 분야를 연결할 수 있다
- 이 탭의 학습 순서와 후행 탭(Vision, NLP, RAG 등)과의 관계를 이해한다
왜 중요한가
딥러닝은 지난 10여 년간 폭발적으로 발전하며 수많은 아키텍처가 등장했습니다. 전체 지도를 먼저 파악하면 각 아키텍처의 위치와 관계를 이해한 상태에서 깊이 있는 학습을 진행할 수 있습니다.아키텍처 계보
아키텍처 분류
판별 모델 vs 생성 모델
딥러닝 아키텍처는 크게 두 가지 방향으로 나뉩니다.| 분류 | 목표 | 대표 아키텍처 | 응용 |
|---|---|---|---|
| 판별 모델 | 입력 → 레이블/결정 | CNN, RNN, Transformer (인코더) | 분류, 탐지, 번역 |
| 생성 모델 | 잠재 분포 → 새로운 데이터 | VAE, GAN, Diffusion | 이미지 생성, 텍스트 생성 |
입력 데이터별 아키텍처
| 데이터 유형 | 핵심 아키텍처 | 특징 |
|---|---|---|
| 이미지 | CNN, ViT | 공간적 지역성, 이동 불변성 |
| 시퀀스 (텍스트, 시계열) | RNN, LSTM, Transformer | 순서 의존성, 장기 의존성 |
| 그래프 | GNN (Graph Neural Network) | 노드-에지 관계 학습 |
| 테이블 (정형) | TabNet, FT-Transformer | 특성 간 상호작용 |
| 멀티모달 | CLIP, Flamingo | 여러 모달리티 통합 |
핵심 아키텍처 요약
CNN (합성곱 신경망)
합성곱 연산으로 이미지의 공간적 패턴을 계층적으로 학습합니다. 2012년 AlexNet의 ImageNet 우승 이후 컴퓨터 비전의 핵심 아키텍처가 되었습니다.- 핵심 연산: 합성곱(Convolution) + 풀링(Pooling)
- 강점: 이동 불변성, 파라미터 공유로 효율적
- 한계: 전역(global) 정보 포착이 어려움 → ViT가 보완
- 이 탭에서: 03. CNN 그룹에서 상세 학습
RNN / LSTM / GRU (순환 신경망)
시간 순서가 있는 데이터를 처리하기 위해 은닉 상태(Hidden State)를 유지하며 순차적으로 입력을 처리합니다.- 핵심 개념: 은닉 상태의 순환적 전달
- 강점: 가변 길이 시퀀스 처리
- 한계: 장기 의존성(Long-term Dependency) 문제 → LSTM/GRU가 완화, Transformer가 근본적 해결
- 이 탭에서: 04. 시퀀스 모델 그룹에서 상세 학습
Transformer
Self-Attention 메커니즘으로 시퀀스 내 모든 위치 간의 관계를 병렬로 계산합니다. 2017년 “Attention Is All You Need” 논문 이후 NLP를 넘어 Vision, Audio 등 거의 모든 분야의 기반 아키텍처가 되었습니다.- 핵심 연산: Self-Attention + Feed-Forward Network
- 강점: 병렬 처리, 장거리 의존성 포착, 대규모 사전학습
- 파생: BERT(인코더), GPT(디코더), T5(인코더-디코더)
Attention과 Transformer 아키텍처의 상세 내용은 NLP 탭에서 다룹니다. 이 탭에서는 Seq2Seq에서 Attention의 등장 배경을 소개하고, NLP 탭으로 연결합니다.
생성 모델
데이터의 분포를 학습하여 새로운 데이터를 생성하는 모델 계열입니다.| 모델 | 핵심 아이디어 | 대표 응용 |
|---|---|---|
| Autoencoder | 입력 → 압축 → 복원 | 이상 탐지, 차원 축소 |
| VAE | 확률적 잠재 공간에서 샘플링 | 이미지 생성, 약물 설계 |
| GAN | 생성자 vs 판별자의 적대적 학습 | 이미지 합성, 스타일 변환 |
| Diffusion | 노이즈 추가 → 단계적 제거 | Stable Diffusion, DALL-E |
- 이 탭에서: 07. 생성 모델 그룹에서 상세 학습
후행 탭 연결 지도
이 탭의 각 그룹이 후행 탭에서 어떤 역할을 하는지 보여줍니다.| DL 그룹 | Vision | NLP | RAG | Fine-Tuning | LLMOps |
|---|---|---|---|---|---|
| 01. 신경망 기초 | ● | ○ | ○ | ● | ○ |
| 02. PyTorch 기본 | ● | ○ | ○ | ● | ○ |
| 03. CNN | ★ | - | - | ○ | - |
| 04. 시퀀스 모델 | - | ★ | ○ | ○ | - |
| 05. 학습 실무 | ● | ○ | - | ★ | ● |
| 06. 임베딩 | ○ | ● | ★ | ● | - |
| 07. 생성 모델 | ● | - | - | ○ | - |
★ 핵심 선수 지식 / ● 중요 기반 / ○ 참고 수준 / - 직접 연결 없음
딥러닝 발전의 이정표
| 연도 | 사건 | 의의 |
|---|---|---|
| 1958 | Perceptron | 최초의 신경망 모델 |
| 1986 | 역전파(Backpropagation) 재정립 | 다층 신경망 학습 가능 |
| 1998 | LeNet-5 | CNN 실용화의 시작 |
| 2012 | AlexNet | 대규모 비전 벤치마크에서 딥러닝 우위 확립 |
| 2014 | Seq2Seq, Attention, VGG/Inception | 현대 NLP/비전 구조의 기반 형성 |
| 2015 | ResNet | 매우 깊은 네트워크 학습 안정화 |
| 2017 | Transformer | 시퀀스 모델의 표준 아키텍처 전환 |
| 2018 | BERT, GPT | 사전학습 기반 NLP 확산 |
| 2020 | ViT, GPT-3 | Vision Transformer와 초거대 LLM 확산 |
| 2021 | Switch Transformer(MoE) | 파라미터 확장 효율성 개선 |
| 2022 | Diffusion, ConvNeXt/DiT | 생성 모델과 비전 백본의 재편 |
| 2023 | SAM, LLaMA, Mamba | 파운데이션 모델과 SSM 계열 부상 |
| 2024 | Mamba-2 | SSM 계열의 성능/효율 고도화 |
| 2025 | Reasoning LLM (예: DeepSeek-R1) | 추론 중심 학습/추론 패러다임 확장 |
Vision 핵심 구조 타임라인 (논문 포함)
NLP/LLM 핵심 구조 타임라인 (논문 + 출시일)
LLM 회사별 발전 계보 차트 (Transformer 이후)
오픈 웨이트 LLM 계보 (Hugging Face 등록 기준, 2026-02-25)
| 회사 | 대표 계보 (모델명 + 공개일) | 기준 |
|---|---|---|
| Meta (Llama) | meta-llama/Llama-2-7b-hf (2023-07-13) → meta-llama/Meta-Llama-3-8B (2024-04-17) → meta-llama/Llama-3.1-8B (2024-07-14) → meta-llama/Llama-3.2-3B (2024-09-18) → meta-llama/Llama-4-Scout-17B-16E-Original (2025-04-03) | Hugging Face API createdAt |
| Qwen (Alibaba) | Qwen/Qwen-7B (2023-08-03) → Qwen/Qwen1.5-7B (2024-01-22) → Qwen/Qwen2-7B (2024-06-04) → Qwen/Qwen2.5-7B (2024-09-15) → Qwen/Qwen3-8B (2025-04-27) → Qwen/Qwen3.5-27B (2026-02-24) | Hugging Face API createdAt |
| DeepSeek | deepseek-ai/deepseek-llm-7b-base (2023-11-29) → deepseek-ai/DeepSeek-V2 (2024-04-22) → deepseek-ai/DeepSeek-V2.5 (2024-09-05) → deepseek-ai/DeepSeek-V3 (2024-12-25) → deepseek-ai/DeepSeek-R1 (2025-01-20) → deepseek-ai/DeepSeek-V3.2 (2025-12-01) | Hugging Face API createdAt |
| Mistral AI | mistralai/Mistral-7B-v0.1 (2023-09-20) → mistralai/Mixtral-8x7B-v0.1 (2023-12-01) → mistralai/Mixtral-8x22B-v0.1 (2024-04-16) → mistralai/Mistral-Small-24B-Instruct-2501 (2025-01-28) → mistralai/Magistral-Small-2506 (2025-06-04) → mistralai/Mistral-Large-3-675B-Instruct-2512 (2025-11-28) | Hugging Face API createdAt |
| Google (Gemma) | google/gemma-2b (2024-02-08) → google/gemma-2-9b (2024-06-24) → google/gemma-3-12b-it (2025-03-01) | Hugging Face API createdAt |
| Microsoft (Phi) | microsoft/phi-2 (2023-12-13) → microsoft/Phi-3-mini-4k-instruct (2024-04-22) → microsoft/Phi-3.5-mini-instruct (2024-08-16) → microsoft/phi-4 (2024-12-11) → microsoft/Phi-4-mini-instruct (2025-02-19) | Hugging Face API createdAt |
| TII (Falcon) | tiiuae/falcon-7b (2023-04-24) → tiiuae/Falcon3-10B-Instruct (2024-12-14) → tiiuae/Falcon-H1-34B-Instruct (2025-05-01) → tiiuae/Falcon-H1R-7B-FP8 (2026-01-28) | Hugging Face API createdAt |
| AllenAI (OLMo) | allenai/OLMo-7B-hf (2024-04-12) → allenai/OLMo-2-1124-13B (2024-11-19) → allenai/OLMo-2-0425-1B (2025-04-17) → allenai/OLMo-3-7B-Instruct (2025-11-19) | Hugging Face API createdAt |
위 표의 날짜는 논문 출판일이 아니라 **Hugging Face에 모델이 공개된 날짜(
createdAt)**입니다. 논문이 있는 모델은 위의 NLP/LLM 타임라인에서 함께 확인합니다.상용 API LLM 계보 (공식 발표일 기준)
| 회사 | 대표 계보 | 공식 발표 링크 |
|---|---|---|
| OpenAI | GPT-4 (2023-03-14) → GPT-4o (2024-05-13) → o1 (2024-09-12) → GPT-4.1 (2025-04-14) → o3/o4-mini (2025-04-16) | GPT-4, GPT-4o, o1, GPT-4.1, o3/o4-mini |
| Anthropic | Claude 3 (2024-03-04) → Claude 3.5 Sonnet (2024-06-20) → Claude 3.7 Sonnet (2025-02-24) → Claude 4 (2025-05-22) → Claude Sonnet 4.5 (2026-02-24) | Claude 3, Claude 3.5, Claude 3.7, Claude 4, Claude Sonnet 4.5 |
| Gemini 1.0 (2023-12-06) → Gemini 1.5 (2024-02-15) → Gemini 2.0 (2024-12-11) → Gemini 2.5 (2025-03-25) | Gemini 1.0, Gemini 1.5, Gemini 2.0, Gemini 2.5 | |
| xAI | Grok 3 (2025-02-17) → Grok 4 (2025-07-09) → Grok 4 Fast (2025-09-03) | Grok 3, Grok 4, Grok 4 Fast |
생성 모델 핵심 구조 타임라인 (논문 포함)
| 연도 | 구조 | 핵심 의미 | 대표 논문 |
|---|---|---|---|
| 2013 | VAE | 확률적 잠재공간 기반 생성 모델의 표준화 | Auto-Encoding Variational Bayes |
| 2014 | GAN | 생성자-판별자 적대학습 패러다임 제시 | Generative Adversarial Nets |
| 2017 | WGAN | GAN 학습 안정성 개선 | Wasserstein GAN |
| 2018 | StyleGAN | 고품질 스타일 기반 이미지 생성 구조 정립 | A Style-Based Generator Architecture for Generative Adversarial Networks |
| 2020 | DDPM | 확산모델 기본 학습식 정립 | Denoising Diffusion Probabilistic Models |
| 2020 | DDIM | 확산 샘플링 고속화의 기초 | Denoising Diffusion Implicit Models |
| 2021/2022 | Latent Diffusion | 잠재공간 확산으로 고해상도 생성 실용화 | High-Resolution Image Synthesis with Latent Diffusion Models |
| 2022 | DiT | Diffusion에 Transformer 백본을 결합 | Scalable Diffusion Models with Transformers |
| 2022 | Classifier-Free Guidance | 조건부 품질 제어 표준화 | Classifier-Free Diffusion Guidance |
멀티모달(VLM) 핵심 구조 타임라인 (논문 포함)
딥러닝의 모든 아키텍처를 다 알아야 하나요?
딥러닝의 모든 아키텍처를 다 알아야 하나요?
모든 아키텍처를 깊이 이해할 필요는 없습니다. 핵심은 MLP → CNN → RNN → Transformer의 발전 흐름을 이해하고, 자신의 도메인에 필요한 아키텍처를 깊이 학습하는 것입니다. 이 탭에서는 기초를 다지고, 후행 탭에서 응용을 깊이 다룹니다.
Transformer가 모든 것을 대체하나요?
Transformer가 모든 것을 대체하나요?
Transformer는 NLP, Vision, Audio 등 다양한 분야에서 강력한 성능을 보이지만, 모든 문제에 최적인 것은 아닙니다. 엣지 디바이스에서는 여전히 경량 CNN이 사용되고, 실시간 시계열 처리에는 TCN(Temporal CNN)이 효율적일 수 있습니다. 문제의 특성과 자원 제약을 고려한 선택이 중요합니다.
체크리스트
- CNN, RNN, Transformer의 핵심 차이를 한 문장으로 설명할 수 있다
- 판별 모델과 생성 모델의 차이를 이해한다
- 주어진 데이터 유형에 적합한 아키텍처를 선택할 수 있다
- 이 탭의 학습 경로와 후행 탭과의 관계를 파악했다
다음 문서
신경망 기초
퍼셉트론부터 시작하는 딥러닝의 수학적 기초
PyTorch 기본
텐서, Autograd, nn.Module 핵심 API 실습

