Skip to main content
사전학습 언어 모델(PLM)은 대규모 텍스트 코퍼스에서 언어의 일반적인 패턴을 학습한 모델입니다. NLP의 패러다임을 근본적으로 바꾸었으며, 오늘날 거의 모든 NLP 시스템의 기반이 됩니다.

NLP 패러다임의 변화

사전학습 언어 모델의 등장으로 NLP 문제 해결 방식이 단계적으로 변화했습니다.
패러다임시기핵심 아이디어대표 모델
Feature-based~2017Word2Vec, GloVe 등 사전학습 임베딩을 고정 특성으로 사용ELMo
Fine-tuning2018~2022사전학습 모델 전체를 태스크에 맞게 미세 조정BERT, GPT-2
Prompting2020~대규모 모델에 프롬프트를 설계하여 태스크를 수행GPT-3, ChatGPT

모델 구조에 따른 분류

Transformer 아키텍처의 어떤 부분을 사용하느냐에 따라 세 가지 유형으로 나뉩니다.
유형학습 방식강점 태스크대표 모델
인코더 모델양방향 컨텍스트 (Masked LM)분류, NER, 유사도, QA(추출형)BERT, RoBERTa, DeBERTa
디코더 모델자기회귀 (Autoregressive LM)텍스트 생성, 대화, 요약GPT, LLaMA, Mistral
인코더-디코더조건부 생성 (Seq2Seq)번역, 요약, 질의응답T5, BART, mBART
처음 학습하시는 분이라면 BERT 문서부터 시작하는 것을 권장합니다. BERT는 사전학습의 핵심 개념(Masked Language Model, Fine-tuning)을 가장 명확하게 보여주며, 이후 GPT와 T5를 이해하는 데 필요한 기반을 제공합니다.

학습 경로

BERT

양방향 인코더 모델의 원조 — Masked LM과 Fine-tuning 전략을 학습합니다

RoBERTa, ALBERT, DeBERTa

BERT 이후 등장한 개선 모델들의 핵심 차이를 비교합니다

한국어 PLM

KoBERT, KoELECTRA, KLUE-BERT 등 한국어 인코더 모델을 실습합니다

GPT 진화

GPT-1부터 GPT-4까지의 아키텍처 변화와 핵심 인사이트를 추적합니다

LLaMA 계열

LLaMA, Mistral, Qwen 등 오픈소스 LLM의 구조와 혁신을 비교합니다

한국어 LLM

SOLAR, EXAONE, HyperCLOVA X 등 한국어 대규모 언어 모델을 분석합니다

인코더-디코더 모델

T5, BART, mBART의 구조적 특징과 텍스트-투-텍스트 프레임워크를 학습합니다

스케일링 법칙

모델 크기, 데이터, 컴퓨팅의 관계와 효율적인 학습 전략을 이해합니다