GPT 진화

GPT 계열은 OpenAI가 개발한 자기회귀(autoregressive) 디코더 모델입니다. “다음 토큰 예측”이라는 단순한 목표를 극한까지 스케일링하여, 텍스트 생성에서 범용 AI까지의 발전을 이끌었습니다.

핵심 아이디어

GPT의 핵심은 Autoregressive Language Modeling입니다. 주어진 토큰 시퀀스에서 다음 토큰의 확률을 최대화합니다.

P(x_1, x_2, ..., x_n) = \prod_{i=1}^{n} P(x_i \mid x_1, ..., x_{i-1})

학습 목표(손실 함수):

\mathcal{L} = -\sum_{i=1}^{n} \log P(x_i \mid x_1, ..., x_{i-1})

BERT가 양방향으로 문맥을 이해하는 데 초점을 맞췄다면, GPT는 좌에서 우로의 생성(generation) 능력에 집중합니다. 이 단순한 목표가 충분한 스케일에서 놀라운 능력을 발휘합니다.

동작 방식

Transformer 디코더의 **Masked Self-Attention(Causal Attention)**을 사용하여, 각 토큰은 자신보다 앞에 있는 토큰만 참조할 수 있습니다.

GPT-1 (2018): 비지도 사전학습 + 지도 Fine-tuning

아키텍처

항목	값
레이어 수	12
Hidden 차원	768
Attention Head	12
파라미터	117M
컨텍스트 길이	512
학습 데이터	BooksCorpus (약 7,000권, 5GB)

핵심 기여: 2단계 학습 프레임워크

GPT-1의 핵심 인사이트는 비지도 사전학습이 다양한 NLP 태스크의 성능을 크게 향상시킨다는 것입니다. 이는 BERT와 같은 시기에 독립적으로 발견된 결과이며, 사전학습 패러다임의 시작점입니다.

태스크별 입력 변환

GPT-1은 다양한 태스크를 하나의 모델 구조로 처리하기 위해, 입력 형식을 변환합니다.

태스크	입력 형식
분류	`[Start] 텍스트 [Extract]`
함의	`[Start] 전제 [Delim] 가설 [Extract]`
유사도	`[Start] 텍스트A [Delim] 텍스트B [Extract]` (양방향)
다지선다	`[Start] 문맥 [Delim] 답 [Extract]` (각 선택지마다)

GPT-2 (2019): Zero-shot과 스케일의 시작

아키텍처 변화

항목	GPT-1	GPT-2	변화
파라미터	117M	1.5B	13배
레이어	12	48	4배
Hidden 차원	768	1,600	2배
컨텍스트	512	1,024	2배
학습 데이터	5GB	40GB (WebText)	8배
Batch 크기	64	512	8배

핵심 기여: Fine-tuning 없는 Zero-shot

GPT-2의 혁신적 주장: 충분히 큰 언어 모델은 Fine-tuning 없이도 태스크를 수행할 수 있다.

# GPT-2의 Zero-shot 개념
# Fine-tuning 없이 프롬프트만으로 태스크 수행

# 번역 (학습하지 않았지만 수행)
prompt = "Translate English to French: cheese =>"
# 모델 출력: "fromage"

# 요약 (학습하지 않았지만 수행)
prompt = "Article: [긴 기사 텍스트]\nTL;DR:"
# 모델 출력: 기사 요약

이 발견은 언어 모델링이 암묵적으로 다양한 태스크를 학습한다는 것을 보여줍니다.

아키텍처 세부 변경

# GPT-2의 주요 아키텍처 변경점

# 1. Pre-Norm (Layer Normalization 위치 변경)
# GPT-1: Post-Norm (Attention → Add → LayerNorm)
# GPT-2: Pre-Norm (LayerNorm → Attention → Add) → 학습 안정성 향상

class GPT2Block:
    """GPT-2 Transformer 블록의 개념적 구조입니다."""
    def forward(self, x):
        # Pre-Norm 구조
        residual = x
        x = self.layer_norm_1(x)     # LayerNorm 먼저
        x = self.attention(x)         # Attention
        x = residual + x              # Residual 연결

        residual = x
        x = self.layer_norm_2(x)     # LayerNorm 먼저
        x = self.feed_forward(x)     # FFN
        x = residual + x              # Residual 연결
        return x

# 2. 어휘 크기 확대: 40,478 → 50,257 (BPE)
# 3. 최종 LayerNorm 추가 (마지막 블록 출력에)

GPT-3 (2020): In-Context Learning과 Few-shot

스케일의 도약

항목	GPT-2	GPT-3	변화
파라미터	1.5B	175B	117배
레이어	48	96	2배
Hidden 차원	1,600	12,288	7.7배
Attention Head	25	96	3.8배
컨텍스트	1,024	2,048	2배
학습 데이터	40GB	~570GB (필터링 후 약 300B 토큰)
학습 비용	-	~$4.6M (추정)

핵심 기여: In-Context Learning (ICL)

GPT-3의 가장 중요한 발견은 In-Context Learning입니다. 모델의 가중치를 업데이트하지 않고, 프롬프트에 예시를 넣어 태스크를 수행합니다.

접근법	설명	파라미터 업데이트	성능
Zero-shot	예시 없이 태스크 설명만	없음	낮음~중간
One-shot	1개 예시 제공	없음	중간
Few-shot	수~수십 개 예시 제공	없음	높음
Fine-tuning	태스크 데이터로 모델 학습	있음	최고

GPT-3의 Few-shot 성능은 일부 태스크에서 Fine-tuning한 BERT와 비슷하거나 우수했습니다. 이는 “규모가 곧 능력”이라는 스케일링 가설을 강력히 지지합니다.

GPT-3 모델 변형

모델	파라미터	레이어	Hidden	Head
GPT-3 Small	125M	12	768	12
GPT-3 Medium	350M	24	1,024	16
GPT-3 Large	760M	24	1,536	16
GPT-3 XL	1.3B	24	2,048	24
GPT-3 2.7B	2.7B	32	2,560	32
GPT-3 6.7B	6.7B	32	4,096	32
GPT-3 13B	13B	40	5,140	40
GPT-3 175B	175B	96	12,288	96

GPT-3.5 / ChatGPT (2022): 대화에 최적화

GPT-3.5는 GPT-3에 **RLHF(Reinforcement Learning from Human Feedback)**를 적용하여 대화에 최적화한 모델입니다.

학습 파이프라인

RLHF의 세 단계:

SFT: 사람이 작성한 이상적인 대화 데이터로 GPT-3를 Fine-tuning
Reward Model: 모델 응답들의 품질을 평가하는 보상 모델 학습
PPO: 보상 모델의 피드백으로 정책(언어 모델)을 최적화

GPT-4 (2023): 멀티모달과 추론

GPT-4는 멀티모달(multimodal) 모델로, 텍스트와 이미지를 모두 입력으로 받을 수 있습니다.

항목	GPT-3.5	GPT-4
입력 모달리티	텍스트	텍스트 + 이미지
컨텍스트 길이	4,096 / 16,384	8,192 / 128,000
추론 능력	중간	높음 (수학, 코딩, 논리)
안전성	기본	향상 (더 정교한 RLHF)
Bar Exam	하위 10%	상위 10%
SAT Math	590/800	710/800

GPT-4의 세부 아키텍처는 공개되지 않았습니다. Mixture of Experts(MoE) 구조(8개 전문가, 각 ~220B 파라미터)를 사용한다는 비공식 보도가 있지만, OpenAI가 공식 확인하지는 않았습니다.

GPT 진화의 핵심 인사이트

세대	핵심 교훈
GPT-1	비지도 사전학습이 NLP 태스크 성능을 크게 향상시킨다
GPT-2	충분히 큰 모델은 Fine-tuning 없이도 태스크를 수행할 수 있다
GPT-3	스케일링이 In-Context Learning이라는 새로운 능력을 만들어낸다
GPT-3.5	RLHF로 모델을 인간의 의도에 정렬(align)할 수 있다
GPT-4	멀티모달 입력과 고도의 추론이 가능한 범용 AI에 근접한다

구현: HuggingFace로 GPT-2 사용

from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch

# GPT-2 모델과 토크나이저 로드
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")
model.eval()

# 텍스트 생성
prompt = "Artificial intelligence will"
input_ids = tokenizer.encode(prompt, return_tensors="pt")

# 다양한 생성 전략
with torch.no_grad():
    # Greedy 생성
    greedy = model.generate(input_ids, max_new_tokens=50)
    print("Greedy:", tokenizer.decode(greedy[0], skip_special_tokens=True))

    # Top-k 샘플링
    top_k = model.generate(
        input_ids,
        max_new_tokens=50,
        do_sample=True,
        top_k=50,
        temperature=0.7,
    )
    print("Top-k:", tokenizer.decode(top_k[0], skip_special_tokens=True))

    # Nucleus (Top-p) 샘플링
    top_p = model.generate(
        input_ids,
        max_new_tokens=50,
        do_sample=True,
        top_p=0.9,
        temperature=0.7,
    )
    print("Top-p:", tokenizer.decode(top_p[0], skip_special_tokens=True))

모델	유형	주요 강점	약점
GPT	디코더	텍스트 생성, 대화, 범용	양방향 이해 부족
BERT	인코더	텍스트 이해, 분류, 추출	생성 불가
T5	인코더-디코더	생성 + 이해 모두	효율성 (양쪽 모두 연산)

참고 논문

논문	저자	연도	핵심 기여
Improving Language Understanding by Generative Pre-Training (GPT-1)	Radford et al.	2018	비지도 사전학습 + 지도 Fine-tuning
Language Models are Unsupervised Multitask Learners (GPT-2)	Radford et al.	2019	Zero-shot, 스케일링
Language Models are Few-Shot Learners (GPT-3)	Brown et al.	2020	In-Context Learning, 175B
Training language models to follow instructions with human feedback	Ouyang et al.	2022	InstructGPT, RLHF
GPT-4 Technical Report	OpenAI	2023	멀티모달, 추론 능력

LLaMA 계열

GPT 계열에 대응하는 오픈소스 LLM의 발전을 추적합니다

한국어 LLM

SOLAR, EXAONE 등 한국어 디코더 모델을 학습합니다

00. 시작하기

01. 텍스트 전처리

02. Transformer 기초

03. 사전학습 모델과 LLM

04. NLP 핵심 태스크

05. 프롬프트 엔지니어링

06. LLM 실무 적용

07. 실무 프로젝트

핵심 아이디어

동작 방식

GPT-1 (2018): 비지도 사전학습 + 지도 Fine-tuning

아키텍처

핵심 기여: 2단계 학습 프레임워크

태스크별 입력 변환

GPT-2 (2019): Zero-shot과 스케일의 시작

아키텍처 변화

핵심 기여: Fine-tuning 없는 Zero-shot

아키텍처 세부 변경

GPT-3 (2020): In-Context Learning과 Few-shot

스케일의 도약

핵심 기여: In-Context Learning (ICL)

GPT-3 모델 변형

GPT-3.5 / ChatGPT (2022): 대화에 최적화

학습 파이프라인

GPT-4 (2023): 멀티모달과 추론

GPT 진화의 핵심 인사이트

구현: HuggingFace로 GPT-2 사용

관련 기술 비교

참고 논문

LLaMA 계열

한국어 LLM

00. 시작하기

01. 텍스트 전처리

02. Transformer 기초

03. 사전학습 모델과 LLM

04. NLP 핵심 태스크

05. 프롬프트 엔지니어링

06. LLM 실무 적용

07. 실무 프로젝트

​핵심 아이디어

​동작 방식

​GPT-1 (2018): 비지도 사전학습 + 지도 Fine-tuning

​아키텍처

​핵심 기여: 2단계 학습 프레임워크

​태스크별 입력 변환

​GPT-2 (2019): Zero-shot과 스케일의 시작

​아키텍처 변화

​핵심 기여: Fine-tuning 없는 Zero-shot

​아키텍처 세부 변경

​GPT-3 (2020): In-Context Learning과 Few-shot

​스케일의 도약

​핵심 기여: In-Context Learning (ICL)

​GPT-3 모델 변형

​GPT-3.5 / ChatGPT (2022): 대화에 최적화

​학습 파이프라인

​GPT-4 (2023): 멀티모달과 추론

​GPT 진화의 핵심 인사이트

​구현: HuggingFace로 GPT-2 사용

​관련 기술 비교

​참고 논문

LLaMA 계열

한국어 LLM

핵심 아이디어

동작 방식

GPT-1 (2018): 비지도 사전학습 + 지도 Fine-tuning

아키텍처

핵심 기여: 2단계 학습 프레임워크

태스크별 입력 변환

GPT-2 (2019): Zero-shot과 스케일의 시작

아키텍처 변화

핵심 기여: Fine-tuning 없는 Zero-shot

아키텍처 세부 변경

GPT-3 (2020): In-Context Learning과 Few-shot

스케일의 도약

핵심 기여: In-Context Learning (ICL)

GPT-3 모델 변형

GPT-3.5 / ChatGPT (2022): 대화에 최적화

학습 파이프라인

GPT-4 (2023): 멀티모달과 추론

GPT 진화의 핵심 인사이트

구현: HuggingFace로 GPT-2 사용

관련 기술 비교

참고 논문