딥러닝 전체 지도

학습 목표

딥러닝 아키텍처의 주요 계보(MLP, CNN, RNN, Transformer, 생성 모델)를 구분할 수 있다
각 아키텍처가 해결하는 문제 유형과 응용 분야를 연결할 수 있다
이 탭의 학습 순서와 후행 탭(Vision, NLP, RAG 등)과의 관계를 이해한다

왜 중요한가

딥러닝은 지난 10여 년간 폭발적으로 발전하며 수많은 아키텍처가 등장했습니다. 전체 지도를 먼저 파악하면 각 아키텍처의 위치와 관계를 이해한 상태에서 깊이 있는 학습을 진행할 수 있습니다.

아키텍처 계보

아키텍처 분류

판별 모델 vs 생성 모델

딥러닝 아키텍처는 크게 두 가지 방향으로 나뉩니다.

분류	목표	대표 아키텍처	응용
판별 모델	입력 → 레이블/결정	CNN, RNN, Transformer (인코더)	분류, 탐지, 번역
생성 모델	잠재 분포 → 새로운 데이터	VAE, GAN, Diffusion	이미지 생성, 텍스트 생성

입력 데이터별 아키텍처

데이터 유형	핵심 아키텍처	특징
이미지	CNN, ViT	공간적 지역성, 이동 불변성
시퀀스 (텍스트, 시계열)	RNN, LSTM, Transformer	순서 의존성, 장기 의존성
그래프	GNN (Graph Neural Network)	노드-에지 관계 학습
테이블 (정형)	TabNet, FT-Transformer	특성 간 상호작용
멀티모달	CLIP, Flamingo	여러 모달리티 통합

핵심 아키텍처 요약

CNN (합성곱 신경망)

합성곱 연산으로 이미지의 공간적 패턴을 계층적으로 학습합니다. 2012년 AlexNet의 ImageNet 우승 이후 컴퓨터 비전의 핵심 아키텍처가 되었습니다.

핵심 연산: 합성곱(Convolution) + 풀링(Pooling)
강점: 이동 불변성, 파라미터 공유로 효율적
한계: 전역(global) 정보 포착이 어려움 → ViT가 보완
이 탭에서: 03. CNN 그룹에서 상세 학습

RNN / LSTM / GRU (순환 신경망)

시간 순서가 있는 데이터를 처리하기 위해 은닉 상태(Hidden State)를 유지하며 순차적으로 입력을 처리합니다.

핵심 개념: 은닉 상태의 순환적 전달
강점: 가변 길이 시퀀스 처리
한계: 장기 의존성(Long-term Dependency) 문제 → LSTM/GRU가 완화, Transformer가 근본적 해결
이 탭에서: 04. 시퀀스 모델 그룹에서 상세 학습

Transformer

Self-Attention 메커니즘으로 시퀀스 내 모든 위치 간의 관계를 병렬로 계산합니다. 2017년 “Attention Is All You Need” 논문 이후 NLP를 넘어 Vision, Audio 등 거의 모든 분야의 기반 아키텍처가 되었습니다.

핵심 연산: Self-Attention + Feed-Forward Network
강점: 병렬 처리, 장거리 의존성 포착, 대규모 사전학습
파생: BERT(인코더), GPT(디코더), T5(인코더-디코더)

Attention과 Transformer 아키텍처의 상세 내용은 NLP 탭에서 다룹니다. 이 탭에서는 Seq2Seq에서 Attention의 등장 배경을 소개하고, NLP 탭으로 연결합니다.

생성 모델

데이터의 분포를 학습하여 새로운 데이터를 생성하는 모델 계열입니다.

모델	핵심 아이디어	대표 응용
Autoencoder	입력 → 압축 → 복원	이상 탐지, 차원 축소
VAE	확률적 잠재 공간에서 샘플링	이미지 생성, 약물 설계
GAN	생성자 vs 판별자의 적대적 학습	이미지 합성, 스타일 변환
Diffusion	노이즈 추가 → 단계적 제거	Stable Diffusion, DALL-E

이 탭에서: 07. 생성 모델 그룹에서 상세 학습

후행 탭 연결 지도

이 탭의 각 그룹이 후행 탭에서 어떤 역할을 하는지 보여줍니다.

DL 그룹	Vision	NLP	RAG	Fine-Tuning	LLMOps
01. 신경망 기초	●	○	○	●	○
02. PyTorch 기본	●	○	○	●	○
03. CNN	★	-	-	○	-
04. 시퀀스 모델	-	★	○	○	-
05. 학습 실무	●	○	-	★	●
06. 임베딩	○	●	★	●	-
07. 생성 모델	●	-	-	○	-

★ 핵심 선수 지식 / ● 중요 기반 / ○ 참고 수준 / - 직접 연결 없음

딥러닝 발전의 이정표

연도	사건	의의
1958	Perceptron	최초의 신경망 모델
1986	역전파(Backpropagation) 재정립	다층 신경망 학습 가능
1998	LeNet-5	CNN 실용화의 시작
2012	AlexNet	대규모 비전 벤치마크에서 딥러닝 우위 확립
2014	Seq2Seq, Attention, VGG/Inception	현대 NLP/비전 구조의 기반 형성
2015	ResNet	매우 깊은 네트워크 학습 안정화
2017	Transformer	시퀀스 모델의 표준 아키텍처 전환
2018	BERT, GPT	사전학습 기반 NLP 확산
2020	ViT, GPT-3	Vision Transformer와 초거대 LLM 확산
2021	Switch Transformer(MoE)	파라미터 확장 효율성 개선
2022	Diffusion, ConvNeXt/DiT	생성 모델과 비전 백본의 재편
2023	SAM, LLaMA, Mamba	파운데이션 모델과 SSM 계열 부상
2024	Mamba-2	SSM 계열의 성능/효율 고도화
2025	Reasoning LLM (예: DeepSeek-R1)	추론 중심 학습/추론 패러다임 확장

Vision 핵심 구조 타임라인 (논문 포함)

연도	구조	핵심 의미	대표 논문
1998	LeNet-5	CNN의 표준 구성(Conv-Pool-FC) 제시	Gradient-Based Learning Applied to Document Recognition
2012	AlexNet	대규모 데이터+GPU 학습으로 성능 도약	ImageNet Classification with Deep Convolutional Neural Networks
2014	VGG	단순한 3x3 스택 CNN의 강력함 확인	Very Deep Convolutional Networks for Large-Scale Image Recognition
2014	Inception	멀티 스케일 병렬 합성곱 효율화	Going Deeper with Convolutions
2015	U-Net	인코더-디코더 기반 세그멘테이션 표준화	U-Net: Convolutional Networks for Biomedical Image Segmentation
2015	ResNet	잔차 연결로 초심층 학습 가능	Deep Residual Learning for Image Recognition
2015	YOLOv1	단일 단계 실시간 객체 탐지 패러다임 정립	You Only Look Once: Unified, Real-Time Object Detection
2016/2017	FPN	멀티스케일 특징 융합의 표준화	Feature Pyramid Networks for Object Detection
2017	Mask R-CNN	탐지+인스턴스 세그멘테이션 통합	Mask R-CNN
2019	EfficientNet	너비/깊이/해상도 동시 스케일링	EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
2020	DETR	객체 탐지에 Transformer end-to-end 적용	End-to-End Object Detection with Transformers
2020	ViT	비전에 Transformer를 본격 적용	An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
2021	CLIP	대규모 이미지-텍스트 대조학습으로 멀티모달 전환	Learning Transferable Visual Models From Natural Language Supervision
2021	MAE	자기지도 마스킹 복원 학습의 비전 표준화	Masked Autoencoders Are Scalable Vision Learners
2021	Swin Transformer	계층형 윈도우 Attention으로 범용 비전 백본화	Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
2022	ConvNeXt	Transformer 학습 레시피를 CNN에 재해석	A ConvNet for the 2020s
2023	SAM	프롬프트 기반 범용 세그멘테이션	Segment Anything
2023	DINOv2	라벨 없이 범용 비전 표현학습 강화	DINOv2: Learning Robust Visual Features without Supervision
2024	Vision Mamba	SSM 기반 비전 백본 가능성 제시	Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

NLP/LLM 핵심 구조 타임라인 (논문 + 출시일)

연도	구조/모델	핵심 의미	근거 (논문/출시)
1997	LSTM	장기 의존성 문제 해결의 출발점	Long Short-Term Memory
2014	GRU	LSTM 경량화 게이트 구조 정착	Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
2014	Seq2Seq	인코더-디코더 표준 정립	Sequence to Sequence Learning with Neural Networks
2014	Additive Attention	장기 의존성 병목 완화	Neural Machine Translation by Jointly Learning to Align and Translate
2017	Sparse MoE	희소 전문가 구조의 확장성 제시	Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
2017	Transformer	Attention 중심 병렬 시퀀스 학습 표준화	Attention Is All You Need
2018	GPT	디코더 기반 생성형 사전학습 패러다임	Improving Language Understanding by Generative Pre-Training
2018	BERT	양방향 인코더 사전학습 표준 확립	BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
2019	RoBERTa	BERT 학습 레시피 재정립	RoBERTa: A Robustly Optimized BERT Pretraining Approach
2019	T5	Text-to-Text 통합 프레임 제시	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
2020	GPT-3	In-context learning 스케일 효과 확인	Language Models are Few-Shot Learners
2022	Chinchilla	스케일링 법칙의 계산 최적점 제시	Training Compute-Optimal Large Language Models
2022	PaLM	Pathways 기반 초대형 LLM 확장	PaLM: Scaling Language Modeling with Pathways
2022	InstructGPT (RLHF)	인간 선호 정렬 학습 실용화	Training language models to follow instructions with human feedback
2023	LLaMA / Llama 2	오픈 웨이트 LLM 생태계 확장	LLaMA: Open and Efficient Foundation Language Models, Llama 2: Open Foundation and Fine-Tuned Chat Models
2023	Mistral 7B	고성능 경량 오픈 모델 계열 확산	Mistral 7B
2024	Mixtral (MoE)	오픈 MoE 계열 성능 상향	Mixtral of Experts
2024	Qwen2	다국어/코드 성능이 강화된 범용 오픈 모델	Qwen2 Technical Report
2024	Mamba-2	SSM 구조의 구현/학습 안정성 개선	Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
2024	DeepSeek-V3	고성능 오픈 LLM 최신 계열	DeepSeek-V3 Technical Report
2025	DeepSeek-R1	추론 중심 학습(RL 기반) 계열 확산	DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2025	Llama 4 (출시)	Meta Llama 계열의 최신 세대 전개	meta-llama/Llama-4-Scout-17B-16E-Original
2025	Gemma 3 (출시)	Google Gemma 계열의 최신 세대 전개	google/gemma-3-12b-it
2026	Qwen3.5 (출시)	Qwen 계열의 2026년 확장 라인업	Qwen/Qwen3.5-27B

LLM 회사별 발전 계보 차트 (Transformer 이후)

오픈 웨이트 LLM 계보 (Hugging Face 등록 기준, 2026-02-25)

회사	대표 계보 (모델명 + 공개일)	기준
Meta (Llama)	meta-llama/Llama-2-7b-hf (2023-07-13) → meta-llama/Meta-Llama-3-8B (2024-04-17) → meta-llama/Llama-3.1-8B (2024-07-14) → meta-llama/Llama-3.2-3B (2024-09-18) → meta-llama/Llama-4-Scout-17B-16E-Original (2025-04-03)	Hugging Face API `createdAt`
Qwen (Alibaba)	Qwen/Qwen-7B (2023-08-03) → Qwen/Qwen1.5-7B (2024-01-22) → Qwen/Qwen2-7B (2024-06-04) → Qwen/Qwen2.5-7B (2024-09-15) → Qwen/Qwen3-8B (2025-04-27) → Qwen/Qwen3.5-27B (2026-02-24)	Hugging Face API `createdAt`
DeepSeek	deepseek-ai/deepseek-llm-7b-base (2023-11-29) → deepseek-ai/DeepSeek-V2 (2024-04-22) → deepseek-ai/DeepSeek-V2.5 (2024-09-05) → deepseek-ai/DeepSeek-V3 (2024-12-25) → deepseek-ai/DeepSeek-R1 (2025-01-20) → deepseek-ai/DeepSeek-V3.2 (2025-12-01)	Hugging Face API `createdAt`
Mistral AI	mistralai/Mistral-7B-v0.1 (2023-09-20) → mistralai/Mixtral-8x7B-v0.1 (2023-12-01) → mistralai/Mixtral-8x22B-v0.1 (2024-04-16) → mistralai/Mistral-Small-24B-Instruct-2501 (2025-01-28) → mistralai/Magistral-Small-2506 (2025-06-04) → mistralai/Mistral-Large-3-675B-Instruct-2512 (2025-11-28)	Hugging Face API `createdAt`
Google (Gemma)	google/gemma-2b (2024-02-08) → google/gemma-2-9b (2024-06-24) → google/gemma-3-12b-it (2025-03-01)	Hugging Face API `createdAt`
Microsoft (Phi)	microsoft/phi-2 (2023-12-13) → microsoft/Phi-3-mini-4k-instruct (2024-04-22) → microsoft/Phi-3.5-mini-instruct (2024-08-16) → microsoft/phi-4 (2024-12-11) → microsoft/Phi-4-mini-instruct (2025-02-19)	Hugging Face API `createdAt`
TII (Falcon)	tiiuae/falcon-7b (2023-04-24) → tiiuae/Falcon3-10B-Instruct (2024-12-14) → tiiuae/Falcon-H1-34B-Instruct (2025-05-01) → tiiuae/Falcon-H1R-7B-FP8 (2026-01-28)	Hugging Face API `createdAt`
AllenAI (OLMo)	allenai/OLMo-7B-hf (2024-04-12) → allenai/OLMo-2-1124-13B (2024-11-19) → allenai/OLMo-2-0425-1B (2025-04-17) → allenai/OLMo-3-7B-Instruct (2025-11-19)	Hugging Face API `createdAt`

위 표의 날짜는 논문 출판일이 아니라 **Hugging Face에 모델이 공개된 날짜(createdAt)**입니다. 논문이 있는 모델은 위의 NLP/LLM 타임라인에서 함께 확인합니다.

상용 API LLM 계보 (공식 발표일 기준)

회사	대표 계보	공식 발표 링크
OpenAI	GPT-4 (2023-03-14) → GPT-4o (2024-05-13) → o1 (2024-09-12) → GPT-4.1 (2025-04-14) → o3/o4-mini (2025-04-16)	GPT-4, GPT-4o, o1, GPT-4.1, o3/o4-mini
Anthropic	Claude 3 (2024-03-04) → Claude 3.5 Sonnet (2024-06-20) → Claude 3.7 Sonnet (2025-02-24) → Claude 4 (2025-05-22) → Claude Sonnet 4.5 (2026-02-24)	Claude 3, Claude 3.5, Claude 3.7, Claude 4, Claude Sonnet 4.5
Google	Gemini 1.0 (2023-12-06) → Gemini 1.5 (2024-02-15) → Gemini 2.0 (2024-12-11) → Gemini 2.5 (2025-03-25)	Gemini 1.0, Gemini 1.5, Gemini 2.0, Gemini 2.5
xAI	Grok 3 (2025-02-17) → Grok 4 (2025-07-09) → Grok 4 Fast (2025-09-03)	Grok 3, Grok 4, Grok 4 Fast

생성 모델 핵심 구조 타임라인 (논문 포함)

연도	구조	핵심 의미	대표 논문
2013	VAE	확률적 잠재공간 기반 생성 모델의 표준화	Auto-Encoding Variational Bayes
2014	GAN	생성자-판별자 적대학습 패러다임 제시	Generative Adversarial Nets
2017	WGAN	GAN 학습 안정성 개선	Wasserstein GAN
2018	StyleGAN	고품질 스타일 기반 이미지 생성 구조 정립	A Style-Based Generator Architecture for Generative Adversarial Networks
2020	DDPM	확산모델 기본 학습식 정립	Denoising Diffusion Probabilistic Models
2020	DDIM	확산 샘플링 고속화의 기초	Denoising Diffusion Implicit Models
2021/2022	Latent Diffusion	잠재공간 확산으로 고해상도 생성 실용화	High-Resolution Image Synthesis with Latent Diffusion Models
2022	DiT	Diffusion에 Transformer 백본을 결합	Scalable Diffusion Models with Transformers
2022	Classifier-Free Guidance	조건부 품질 제어 표준화	Classifier-Free Diffusion Guidance

멀티모달(VLM) 핵심 구조 타임라인 (논문 포함)

연도	구조	핵심 의미	대표 논문
2021	CLIP	이미지-텍스트 대조학습 기반 멀티모달 표현 표준화	Learning Transferable Visual Models From Natural Language Supervision
2021	ALIGN	웹 규모 noisy 텍스트-이미지 사전학습 확장	Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
2022	BLIP	이해/생성을 통합한 Vision-Language 사전학습	BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
2022	Flamingo	Few-shot 멀티모달 in-context 학습 성능 강화	Flamingo: a Visual Language Model for Few-Shot Learning
2022	PaLI	다국어+멀티모달 공동 스케일링 아키텍처	PaLI: A Jointly-Scaled Multilingual Language-Image Model
2023	BLIP-2	Frozen encoder/LLM 연결로 학습 비용 절감	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
2023	LLaVA	Visual instruction tuning 기반 LMM 파이프라인 확산	Visual Instruction Tuning
2023	Kosmos-2	grounding token으로 시각-텍스트 grounding 강화	Kosmos-2: Grounding Multimodal Large Language Models to the World
2024	PaliGemma	경량(3B) VLM 전이학습 실용화	PaliGemma: A versatile 3B VLM for transfer
2024	Qwen2-VL	고해상도/다양한 입력 해상도 처리 강화	Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
2025	Janus-Pro	이해+생성 통합 멀티모달 모델 스케일링	Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
2025	Qwen2.5-VL	차세대 VLM 추론/문서/비디오 처리 성능 강화	Qwen2.5-VL Technical Report

딥러닝의 모든 아키텍처를 다 알아야 하나요?

모든 아키텍처를 깊이 이해할 필요는 없습니다. 핵심은 MLP → CNN → RNN → Transformer의 발전 흐름을 이해하고, 자신의 도메인에 필요한 아키텍처를 깊이 학습하는 것입니다. 이 탭에서는 기초를 다지고, 후행 탭에서 응용을 깊이 다룹니다.

Transformer가 모든 것을 대체하나요?

Transformer는 NLP, Vision, Audio 등 다양한 분야에서 강력한 성능을 보이지만, 모든 문제에 최적인 것은 아닙니다. 엣지 디바이스에서는 여전히 경량 CNN이 사용되고, 실시간 시계열 처리에는 TCN(Temporal CNN)이 효율적일 수 있습니다. 문제의 특성과 자원 제약을 고려한 선택이 중요합니다.

체크리스트

CNN, RNN, Transformer의 핵심 차이를 한 문장으로 설명할 수 있다
판별 모델과 생성 모델의 차이를 이해한다
주어진 데이터 유형에 적합한 아키텍처를 선택할 수 있다
이 탭의 학습 경로와 후행 탭과의 관계를 파악했다

다음 문서

신경망 기초

퍼셉트론부터 시작하는 딥러닝의 수학적 기초

PyTorch 기본

텐서, Autograd, nn.Module 핵심 API 실습

00. 시작하기

01. 신경망 기초

02. PyTorch 기본

03. CNN

04. 시퀀스 모델

05. 학습 실무 기법

06. 임베딩과 표현 학습

07. 생성 모델

학습 목표

왜 중요한가

아키텍처 계보

아키텍처 분류

판별 모델 vs 생성 모델

입력 데이터별 아키텍처

핵심 아키텍처 요약

CNN (합성곱 신경망)

RNN / LSTM / GRU (순환 신경망)

Transformer

생성 모델

후행 탭 연결 지도

딥러닝 발전의 이정표

Vision 핵심 구조 타임라인 (논문 포함)

NLP/LLM 핵심 구조 타임라인 (논문 + 출시일)

LLM 회사별 발전 계보 차트 (Transformer 이후)

오픈 웨이트 LLM 계보 (Hugging Face 등록 기준, 2026-02-25)

상용 API LLM 계보 (공식 발표일 기준)

생성 모델 핵심 구조 타임라인 (논문 포함)

멀티모달(VLM) 핵심 구조 타임라인 (논문 포함)

체크리스트

다음 문서

신경망 기초

PyTorch 기본

00. 시작하기

01. 신경망 기초

02. PyTorch 기본

03. CNN

04. 시퀀스 모델

05. 학습 실무 기법

06. 임베딩과 표현 학습

07. 생성 모델

​학습 목표

​왜 중요한가

​아키텍처 계보

​아키텍처 분류

​판별 모델 vs 생성 모델

​입력 데이터별 아키텍처

​핵심 아키텍처 요약

​CNN (합성곱 신경망)

​RNN / LSTM / GRU (순환 신경망)

​Transformer

​생성 모델

​후행 탭 연결 지도

​딥러닝 발전의 이정표

​Vision 핵심 구조 타임라인 (논문 포함)

​NLP/LLM 핵심 구조 타임라인 (논문 + 출시일)

​LLM 회사별 발전 계보 차트 (Transformer 이후)

​오픈 웨이트 LLM 계보 (Hugging Face 등록 기준, 2026-02-25)

​상용 API LLM 계보 (공식 발표일 기준)

​생성 모델 핵심 구조 타임라인 (논문 포함)

​멀티모달(VLM) 핵심 구조 타임라인 (논문 포함)

​체크리스트

​다음 문서

신경망 기초

PyTorch 기본

학습 목표

왜 중요한가

아키텍처 계보

아키텍처 분류

판별 모델 vs 생성 모델

입력 데이터별 아키텍처

핵심 아키텍처 요약

CNN (합성곱 신경망)

RNN / LSTM / GRU (순환 신경망)

Transformer

생성 모델

후행 탭 연결 지도

딥러닝 발전의 이정표

Vision 핵심 구조 타임라인 (논문 포함)

NLP/LLM 핵심 구조 타임라인 (논문 + 출시일)

LLM 회사별 발전 계보 차트 (Transformer 이후)

오픈 웨이트 LLM 계보 (Hugging Face 등록 기준, 2026-02-25)

상용 API LLM 계보 (공식 발표일 기준)

생성 모델 핵심 구조 타임라인 (논문 포함)

멀티모달(VLM) 핵심 구조 타임라인 (논문 포함)

체크리스트

다음 문서