Skip to main content

학습 목표

  • 딥러닝 아키텍처의 주요 계보(MLP, CNN, RNN, Transformer, 생성 모델)를 구분할 수 있다
  • 각 아키텍처가 해결하는 문제 유형과 응용 분야를 연결할 수 있다
  • 이 탭의 학습 순서와 후행 탭(Vision, NLP, RAG 등)과의 관계를 이해한다

왜 중요한가

딥러닝은 지난 10여 년간 폭발적으로 발전하며 수많은 아키텍처가 등장했습니다. 전체 지도를 먼저 파악하면 각 아키텍처의 위치와 관계를 이해한 상태에서 깊이 있는 학습을 진행할 수 있습니다.

아키텍처 계보

아키텍처 분류

판별 모델 vs 생성 모델

딥러닝 아키텍처는 크게 두 가지 방향으로 나뉩니다.
분류목표대표 아키텍처응용
판별 모델입력 → 레이블/결정CNN, RNN, Transformer (인코더)분류, 탐지, 번역
생성 모델잠재 분포 → 새로운 데이터VAE, GAN, Diffusion이미지 생성, 텍스트 생성

입력 데이터별 아키텍처

데이터 유형핵심 아키텍처특징
이미지CNN, ViT공간적 지역성, 이동 불변성
시퀀스 (텍스트, 시계열)RNN, LSTM, Transformer순서 의존성, 장기 의존성
그래프GNN (Graph Neural Network)노드-에지 관계 학습
테이블 (정형)TabNet, FT-Transformer특성 간 상호작용
멀티모달CLIP, Flamingo여러 모달리티 통합

핵심 아키텍처 요약

CNN (합성곱 신경망)

합성곱 연산으로 이미지의 공간적 패턴을 계층적으로 학습합니다. 2012년 AlexNet의 ImageNet 우승 이후 컴퓨터 비전의 핵심 아키텍처가 되었습니다.
  • 핵심 연산: 합성곱(Convolution) + 풀링(Pooling)
  • 강점: 이동 불변성, 파라미터 공유로 효율적
  • 한계: 전역(global) 정보 포착이 어려움 → ViT가 보완
  • 이 탭에서: 03. CNN 그룹에서 상세 학습

RNN / LSTM / GRU (순환 신경망)

시간 순서가 있는 데이터를 처리하기 위해 은닉 상태(Hidden State)를 유지하며 순차적으로 입력을 처리합니다.
  • 핵심 개념: 은닉 상태의 순환적 전달
  • 강점: 가변 길이 시퀀스 처리
  • 한계: 장기 의존성(Long-term Dependency) 문제 → LSTM/GRU가 완화, Transformer가 근본적 해결
  • 이 탭에서: 04. 시퀀스 모델 그룹에서 상세 학습

Transformer

Self-Attention 메커니즘으로 시퀀스 내 모든 위치 간의 관계를 병렬로 계산합니다. 2017년 “Attention Is All You Need” 논문 이후 NLP를 넘어 Vision, Audio 등 거의 모든 분야의 기반 아키텍처가 되었습니다.
  • 핵심 연산: Self-Attention + Feed-Forward Network
  • 강점: 병렬 처리, 장거리 의존성 포착, 대규모 사전학습
  • 파생: BERT(인코더), GPT(디코더), T5(인코더-디코더)
Attention과 Transformer 아키텍처의 상세 내용은 NLP 탭에서 다룹니다. 이 탭에서는 Seq2Seq에서 Attention의 등장 배경을 소개하고, NLP 탭으로 연결합니다.

생성 모델

데이터의 분포를 학습하여 새로운 데이터를 생성하는 모델 계열입니다.
모델핵심 아이디어대표 응용
Autoencoder입력 → 압축 → 복원이상 탐지, 차원 축소
VAE확률적 잠재 공간에서 샘플링이미지 생성, 약물 설계
GAN생성자 vs 판별자의 적대적 학습이미지 합성, 스타일 변환
Diffusion노이즈 추가 → 단계적 제거Stable Diffusion, DALL-E

후행 탭 연결 지도

이 탭의 각 그룹이 후행 탭에서 어떤 역할을 하는지 보여줍니다.
DL 그룹VisionNLPRAGFine-TuningLLMOps
01. 신경망 기초
02. PyTorch 기본
03. CNN---
04. 시퀀스 모델--
05. 학습 실무-
06. 임베딩-
07. 생성 모델---
★ 핵심 선수 지식 / ● 중요 기반 / ○ 참고 수준 / - 직접 연결 없음

딥러닝 발전의 이정표

연도사건의의
1958Perceptron최초의 신경망 모델
1986역전파(Backpropagation) 재정립다층 신경망 학습 가능
1998LeNet-5CNN 실용화의 시작
2012AlexNet대규모 비전 벤치마크에서 딥러닝 우위 확립
2014Seq2Seq, Attention, VGG/Inception현대 NLP/비전 구조의 기반 형성
2015ResNet매우 깊은 네트워크 학습 안정화
2017Transformer시퀀스 모델의 표준 아키텍처 전환
2018BERT, GPT사전학습 기반 NLP 확산
2020ViT, GPT-3Vision Transformer와 초거대 LLM 확산
2021Switch Transformer(MoE)파라미터 확장 효율성 개선
2022Diffusion, ConvNeXt/DiT생성 모델과 비전 백본의 재편
2023SAM, LLaMA, Mamba파운데이션 모델과 SSM 계열 부상
2024Mamba-2SSM 계열의 성능/효율 고도화
2025Reasoning LLM (예: DeepSeek-R1)추론 중심 학습/추론 패러다임 확장

Vision 핵심 구조 타임라인 (논문 포함)

연도구조핵심 의미대표 논문
1998LeNet-5CNN의 표준 구성(Conv-Pool-FC) 제시Gradient-Based Learning Applied to Document Recognition
2012AlexNet대규모 데이터+GPU 학습으로 성능 도약ImageNet Classification with Deep Convolutional Neural Networks
2014VGG단순한 3x3 스택 CNN의 강력함 확인Very Deep Convolutional Networks for Large-Scale Image Recognition
2014Inception멀티 스케일 병렬 합성곱 효율화Going Deeper with Convolutions
2015U-Net인코더-디코더 기반 세그멘테이션 표준화U-Net: Convolutional Networks for Biomedical Image Segmentation
2015ResNet잔차 연결로 초심층 학습 가능Deep Residual Learning for Image Recognition
2015YOLOv1단일 단계 실시간 객체 탐지 패러다임 정립You Only Look Once: Unified, Real-Time Object Detection
2016/2017FPN멀티스케일 특징 융합의 표준화Feature Pyramid Networks for Object Detection
2017Mask R-CNN탐지+인스턴스 세그멘테이션 통합Mask R-CNN
2019EfficientNet너비/깊이/해상도 동시 스케일링EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
2020DETR객체 탐지에 Transformer end-to-end 적용End-to-End Object Detection with Transformers
2020ViT비전에 Transformer를 본격 적용An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
2021CLIP대규모 이미지-텍스트 대조학습으로 멀티모달 전환Learning Transferable Visual Models From Natural Language Supervision
2021MAE자기지도 마스킹 복원 학습의 비전 표준화Masked Autoencoders Are Scalable Vision Learners
2021Swin Transformer계층형 윈도우 Attention으로 범용 비전 백본화Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
2022ConvNeXtTransformer 학습 레시피를 CNN에 재해석A ConvNet for the 2020s
2023SAM프롬프트 기반 범용 세그멘테이션Segment Anything
2023DINOv2라벨 없이 범용 비전 표현학습 강화DINOv2: Learning Robust Visual Features without Supervision
2024Vision MambaSSM 기반 비전 백본 가능성 제시Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

NLP/LLM 핵심 구조 타임라인 (논문 + 출시일)

연도구조/모델핵심 의미근거 (논문/출시)
1997LSTM장기 의존성 문제 해결의 출발점Long Short-Term Memory
2014GRULSTM 경량화 게이트 구조 정착Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
2014Seq2Seq인코더-디코더 표준 정립Sequence to Sequence Learning with Neural Networks
2014Additive Attention장기 의존성 병목 완화Neural Machine Translation by Jointly Learning to Align and Translate
2017Sparse MoE희소 전문가 구조의 확장성 제시Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
2017TransformerAttention 중심 병렬 시퀀스 학습 표준화Attention Is All You Need
2018GPT디코더 기반 생성형 사전학습 패러다임Improving Language Understanding by Generative Pre-Training
2018BERT양방향 인코더 사전학습 표준 확립BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
2019RoBERTaBERT 학습 레시피 재정립RoBERTa: A Robustly Optimized BERT Pretraining Approach
2019T5Text-to-Text 통합 프레임 제시Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
2020GPT-3In-context learning 스케일 효과 확인Language Models are Few-Shot Learners
2022Chinchilla스케일링 법칙의 계산 최적점 제시Training Compute-Optimal Large Language Models
2022PaLMPathways 기반 초대형 LLM 확장PaLM: Scaling Language Modeling with Pathways
2022InstructGPT (RLHF)인간 선호 정렬 학습 실용화Training language models to follow instructions with human feedback
2023LLaMA / Llama 2오픈 웨이트 LLM 생태계 확장LLaMA: Open and Efficient Foundation Language Models, Llama 2: Open Foundation and Fine-Tuned Chat Models
2023Mistral 7B고성능 경량 오픈 모델 계열 확산Mistral 7B
2024Mixtral (MoE)오픈 MoE 계열 성능 상향Mixtral of Experts
2024Qwen2다국어/코드 성능이 강화된 범용 오픈 모델Qwen2 Technical Report
2024Mamba-2SSM 구조의 구현/학습 안정성 개선Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality
2024DeepSeek-V3고성능 오픈 LLM 최신 계열DeepSeek-V3 Technical Report
2025DeepSeek-R1추론 중심 학습(RL 기반) 계열 확산DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2025Llama 4 (출시)Meta Llama 계열의 최신 세대 전개meta-llama/Llama-4-Scout-17B-16E-Original
2025Gemma 3 (출시)Google Gemma 계열의 최신 세대 전개google/gemma-3-12b-it
2026Qwen3.5 (출시)Qwen 계열의 2026년 확장 라인업Qwen/Qwen3.5-27B

LLM 회사별 발전 계보 차트 (Transformer 이후)

오픈 웨이트 LLM 계보 (Hugging Face 등록 기준, 2026-02-25)

회사대표 계보 (모델명 + 공개일)기준
Meta (Llama)meta-llama/Llama-2-7b-hf (2023-07-13) → meta-llama/Meta-Llama-3-8B (2024-04-17) → meta-llama/Llama-3.1-8B (2024-07-14) → meta-llama/Llama-3.2-3B (2024-09-18) → meta-llama/Llama-4-Scout-17B-16E-Original (2025-04-03)Hugging Face API createdAt
Qwen (Alibaba)Qwen/Qwen-7B (2023-08-03) → Qwen/Qwen1.5-7B (2024-01-22) → Qwen/Qwen2-7B (2024-06-04) → Qwen/Qwen2.5-7B (2024-09-15) → Qwen/Qwen3-8B (2025-04-27) → Qwen/Qwen3.5-27B (2026-02-24)Hugging Face API createdAt
DeepSeekdeepseek-ai/deepseek-llm-7b-base (2023-11-29) → deepseek-ai/DeepSeek-V2 (2024-04-22) → deepseek-ai/DeepSeek-V2.5 (2024-09-05) → deepseek-ai/DeepSeek-V3 (2024-12-25) → deepseek-ai/DeepSeek-R1 (2025-01-20) → deepseek-ai/DeepSeek-V3.2 (2025-12-01)Hugging Face API createdAt
Mistral AImistralai/Mistral-7B-v0.1 (2023-09-20) → mistralai/Mixtral-8x7B-v0.1 (2023-12-01) → mistralai/Mixtral-8x22B-v0.1 (2024-04-16) → mistralai/Mistral-Small-24B-Instruct-2501 (2025-01-28) → mistralai/Magistral-Small-2506 (2025-06-04) → mistralai/Mistral-Large-3-675B-Instruct-2512 (2025-11-28)Hugging Face API createdAt
Google (Gemma)google/gemma-2b (2024-02-08) → google/gemma-2-9b (2024-06-24) → google/gemma-3-12b-it (2025-03-01)Hugging Face API createdAt
Microsoft (Phi)microsoft/phi-2 (2023-12-13) → microsoft/Phi-3-mini-4k-instruct (2024-04-22) → microsoft/Phi-3.5-mini-instruct (2024-08-16) → microsoft/phi-4 (2024-12-11) → microsoft/Phi-4-mini-instruct (2025-02-19)Hugging Face API createdAt
TII (Falcon)tiiuae/falcon-7b (2023-04-24) → tiiuae/Falcon3-10B-Instruct (2024-12-14) → tiiuae/Falcon-H1-34B-Instruct (2025-05-01) → tiiuae/Falcon-H1R-7B-FP8 (2026-01-28)Hugging Face API createdAt
AllenAI (OLMo)allenai/OLMo-7B-hf (2024-04-12) → allenai/OLMo-2-1124-13B (2024-11-19) → allenai/OLMo-2-0425-1B (2025-04-17) → allenai/OLMo-3-7B-Instruct (2025-11-19)Hugging Face API createdAt
위 표의 날짜는 논문 출판일이 아니라 **Hugging Face에 모델이 공개된 날짜(createdAt)**입니다. 논문이 있는 모델은 위의 NLP/LLM 타임라인에서 함께 확인합니다.

상용 API LLM 계보 (공식 발표일 기준)

회사대표 계보공식 발표 링크
OpenAIGPT-4 (2023-03-14) → GPT-4o (2024-05-13) → o1 (2024-09-12) → GPT-4.1 (2025-04-14) → o3/o4-mini (2025-04-16)GPT-4, GPT-4o, o1, GPT-4.1, o3/o4-mini
AnthropicClaude 3 (2024-03-04) → Claude 3.5 Sonnet (2024-06-20) → Claude 3.7 Sonnet (2025-02-24) → Claude 4 (2025-05-22) → Claude Sonnet 4.5 (2026-02-24)Claude 3, Claude 3.5, Claude 3.7, Claude 4, Claude Sonnet 4.5
GoogleGemini 1.0 (2023-12-06) → Gemini 1.5 (2024-02-15) → Gemini 2.0 (2024-12-11) → Gemini 2.5 (2025-03-25)Gemini 1.0, Gemini 1.5, Gemini 2.0, Gemini 2.5
xAIGrok 3 (2025-02-17) → Grok 4 (2025-07-09) → Grok 4 Fast (2025-09-03)Grok 3, Grok 4, Grok 4 Fast

생성 모델 핵심 구조 타임라인 (논문 포함)

연도구조핵심 의미대표 논문
2013VAE확률적 잠재공간 기반 생성 모델의 표준화Auto-Encoding Variational Bayes
2014GAN생성자-판별자 적대학습 패러다임 제시Generative Adversarial Nets
2017WGANGAN 학습 안정성 개선Wasserstein GAN
2018StyleGAN고품질 스타일 기반 이미지 생성 구조 정립A Style-Based Generator Architecture for Generative Adversarial Networks
2020DDPM확산모델 기본 학습식 정립Denoising Diffusion Probabilistic Models
2020DDIM확산 샘플링 고속화의 기초Denoising Diffusion Implicit Models
2021/2022Latent Diffusion잠재공간 확산으로 고해상도 생성 실용화High-Resolution Image Synthesis with Latent Diffusion Models
2022DiTDiffusion에 Transformer 백본을 결합Scalable Diffusion Models with Transformers
2022Classifier-Free Guidance조건부 품질 제어 표준화Classifier-Free Diffusion Guidance

멀티모달(VLM) 핵심 구조 타임라인 (논문 포함)

연도구조핵심 의미대표 논문
2021CLIP이미지-텍스트 대조학습 기반 멀티모달 표현 표준화Learning Transferable Visual Models From Natural Language Supervision
2021ALIGN웹 규모 noisy 텍스트-이미지 사전학습 확장Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
2022BLIP이해/생성을 통합한 Vision-Language 사전학습BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
2022FlamingoFew-shot 멀티모달 in-context 학습 성능 강화Flamingo: a Visual Language Model for Few-Shot Learning
2022PaLI다국어+멀티모달 공동 스케일링 아키텍처PaLI: A Jointly-Scaled Multilingual Language-Image Model
2023BLIP-2Frozen encoder/LLM 연결로 학습 비용 절감BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
2023LLaVAVisual instruction tuning 기반 LMM 파이프라인 확산Visual Instruction Tuning
2023Kosmos-2grounding token으로 시각-텍스트 grounding 강화Kosmos-2: Grounding Multimodal Large Language Models to the World
2024PaliGemma경량(3B) VLM 전이학습 실용화PaliGemma: A versatile 3B VLM for transfer
2024Qwen2-VL고해상도/다양한 입력 해상도 처리 강화Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
2025Janus-Pro이해+생성 통합 멀티모달 모델 스케일링Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling
2025Qwen2.5-VL차세대 VLM 추론/문서/비디오 처리 성능 강화Qwen2.5-VL Technical Report
모든 아키텍처를 깊이 이해할 필요는 없습니다. 핵심은 MLP → CNN → RNN → Transformer의 발전 흐름을 이해하고, 자신의 도메인에 필요한 아키텍처를 깊이 학습하는 것입니다. 이 탭에서는 기초를 다지고, 후행 탭에서 응용을 깊이 다룹니다.
Transformer는 NLP, Vision, Audio 등 다양한 분야에서 강력한 성능을 보이지만, 모든 문제에 최적인 것은 아닙니다. 엣지 디바이스에서는 여전히 경량 CNN이 사용되고, 실시간 시계열 처리에는 TCN(Temporal CNN)이 효율적일 수 있습니다. 문제의 특성과 자원 제약을 고려한 선택이 중요합니다.

체크리스트

  • CNN, RNN, Transformer의 핵심 차이를 한 문장으로 설명할 수 있다
  • 판별 모델과 생성 모델의 차이를 이해한다
  • 주어진 데이터 유형에 적합한 아키텍처를 선택할 수 있다
  • 이 탭의 학습 경로와 후행 탭과의 관계를 파악했다

다음 문서

신경망 기초

퍼셉트론부터 시작하는 딥러닝의 수학적 기초

PyTorch 기본

텐서, Autograd, nn.Module 핵심 API 실습