스케일링 법칙 (Scaling Laws)
스케일링 법칙(Scaling Laws)은 모델 크기(N), 학습 데이터 양(D), 컴퓨팅 예산(C) 사이의 수학적 관계를 규명합니다. 이 법칙을 이해하면 제한된 자원에서 최적의 모델을 학습하는 전략을 수립할 수 있습니다.학습 목표
이 문서를 완료하면 다음을 할 수 있습니다.- Kaplan et al.의 초기 스케일링 법칙과 Chinchilla의 수정된 법칙의 차이를 설명할 수 있습니다
- 주어진 컴퓨팅 예산에서 최적의 모델 크기와 데이터 양을 추정할 수 있습니다
- 창발적 능력(emergent abilities)의 개념과 사례를 이해합니다
- 실무에서 모델 선택과 학습 전략에 스케일링 법칙을 적용할 수 있습니다
왜 중요한가
LLM 학습에는 막대한 비용이 소요됩니다. GPT-4의 학습 비용은 수천만 달러로 추정됩니다. 스케일링 법칙은 이 투자를 최적화하는 과학적 근거를 제공합니다.- 자원 배분 최적화: 고정된 GPU 예산에서 모델을 크게 할지, 데이터를 많이 쓸지 결정합니다
- 성능 예측: 더 큰 모델의 성능을 작은 실험으로 예측할 수 있습니다
- 비용 대비 효율: 투자 대비 최대 성능을 달성하는 전략을 수립합니다
- 산업 트렌드 이해: 왜 기업들이 점점 더 큰 모델을 학습하는지 이해합니다
핵심 개념
Kaplan et al. (2020) — 초기 스케일링 법칙
OpenAI 연구자들이 발표한 최초의 체계적 스케일링 법칙 연구입니다. 언어 모델의 성능(교차 엔트로피 손실)이 모델 크기, 데이터 양, 컴퓨팅의 **거듭제곱 법칙(power law)**을 따른다는 것을 밝혔습니다.세 가지 스케일링 관계
모델 크기와 성능: 데이터 양과 성능: 컴퓨팅과 성능: 여기서 은 테스트 손실, 은 파라미터 수, 는 학습 토큰 수, 는 컴퓨팅(FLOPs)입니다.Kaplan의 핵심 주장
“컴퓨팅 예산이 고정되면, 큰 모델을 적은 데이터로 학습하는 것이 작은 모델을 많은 데이터로 학습하는 것보다 낫다.”이 주장은 GPT-3의 설계 철학(175B 파라미터, 상대적으로 적은 300B 토큰)에 직접 영향을 미쳤습니다.
Chinchilla (Hoffmann et al., 2022) — 수정된 스케일링 법칙
DeepMind의 Chinchilla 논문은 Kaplan의 주장을 수정했습니다. 최적의 컴퓨팅 할당은 모델 크기와 데이터 양에 균등하게 배분하는 것이라는 결론을 내렸습니다.Chinchilla 최적 비율
즉, 컴퓨팅이 10배 증가하면 모델 크기와 데이터 양을 각각 배 증가시키는 것이 최적입니다. Chinchilla 규칙(rule of thumb): 최적 학습 토큰 수는 파라미터 수의 약 20배입니다.| 모델 | 파라미터 (N) | 학습 토큰 (D) | D/N 비율 | Chinchilla 최적? |
|---|---|---|---|---|
| GPT-3 | 175B | 300B | 1.7 | 과소 학습 (Under-trained) |
| Gopher | 280B | 300B | 1.1 | 심하게 과소 학습 |
| Chinchilla | 70B | 1.4T | 20 | 최적 |
| LLaMA 1 65B | 65B | 1.4T | 21.5 | 약간 초과 (좋음) |
| LLaMA 2 70B | 70B | 2T | 28.6 | Chinchilla 초과 |
| LLaMA 3 70B | 70B | 15T | 214 | 크게 초과 (의도적) |
Chinchilla vs Gopher 비교
| 항목 | Gopher (DeepMind) | Chinchilla |
|---|---|---|
| 파라미터 | 280B | 70B (4배 작음) |
| 학습 토큰 | 300B | 1.4T (4.7배 많음) |
| 학습 FLOPs | 동일 | 동일 |
| 성능 | 베이스라인 | 모든 벤치마크에서 우위 |
Chinchilla 이후: Over-training 전략
흥미롭게도, 최근 모델들(LLaMA 3)은 Chinchilla 최적 비율을 의도적으로 초과하여 학습합니다. 이유:- 추론 비용 절감: 학습은 1회이지만, 추론은 수백만 번 실행됩니다. 더 작은 모델을 더 많은 데이터로 학습하면 추론 비용이 절감됩니다.
- 추론 성능 중시: 추론 시 모델 크기가 작을수록 지연 시간이 줄어듭니다.
- 데이터 증가 효과: Chinchilla 비율을 넘어서도 데이터 추가 학습의 효과가 완전히 사라지지 않습니다.
| 전략 | 학습 비용 | 추론 비용 | 적합한 상황 |
|---|---|---|---|
| Chinchilla 최적 | 효율적 | 높음 (큰 모델) | 학습 비용이 주된 병목 |
| Over-training | 학습 비용 증가 | 낮음 (작은 모델) | 대규모 추론 서비스 |
창발적 능력 (Emergent Abilities)
특정 스케일을 넘어서면 예상하지 못한 능력이 갑자기 나타나는 현상입니다.| 능력 | 나타나는 스케일 | 설명 |
|---|---|---|
| Few-shot Learning | ~10B | 몇 개의 예시만으로 새로운 태스크 수행 |
| Chain-of-Thought | ~100B | 단계별 추론 능력 |
| 코드 생성 | ~50B | 프로그래밍 코드 작성 |
| 수학적 추론 | ~100B | 수학 문제 풀이 |
| 다단계 논리 | ~100B+ | 복잡한 논리적 추론 |
주의: 창발적 능력의 “갑작스러운” 등장은 평가 메트릭의 선택에 따라 달라질 수 있다는 반론이 있습니다 (Schaeffer et al., 2024). 연속적 메트릭(continuous metrics)을 사용하면 점진적 향상으로 관찰되는 경우도 있습니다.
컴퓨팅 비용 추정
대규모 모델 학습에 필요한 컴퓨팅을 추정하는 공식입니다. 여기서:- : 학습에 필요한 총 FLOPs
- : 모델 파라미터 수
- : 학습 토큰 수
- 6: Forward(2) + Backward(4) 연산 상수
Chinchilla 최적 모델 크기 계산기
AI/ML 활용
스케일링 법칙은 실무에서 다음과 같이 활용됩니다.- 모델 선택: 주어진 인프라(GPU, 메모리)에서 최적의 모델 크기 결정
- 데이터 전략: 필요한 학습 데이터 양 추정 및 데이터 수집 계획 수립
- 예산 계획: GPU 클라우드 비용 추정 및 학습 시간 예측
- 성능 예측: 작은 모델 실험으로 큰 모델의 성능 사전 예측
- Fine-tuning 전략: 사전학습 모델 선택 시 학습 충분도 평가
Chinchilla 법칙이 항상 적용되나요?
Chinchilla 법칙이 항상 적용되나요?
Chinchilla 법칙은 사전학습 손실(pre-training loss)을 최적화하는 관점에서 도출되었습니다. 다운스트림 태스크 성능, 추론 비용, 배포 환경 등을 고려하면 최적 비율이 달라질 수 있습니다. 예를 들어, LLaMA 3는 의도적으로 Chinchilla 비율을 초과(70B 파라미터, 15T 토큰)하여 추론 효율성을 극대화했습니다. 실무에서는 Chinchilla를 출발점으로 삼되, 사용 목적에 맞게 조정하는 것이 바람직합니다.
스케일링 법칙이 무한히 적용될 수 있나요?
스케일링 법칙이 무한히 적용될 수 있나요?
이론적 한계는 명확하지 않지만, 실질적 제약이 존재합니다. 1) 데이터 한계: 고품질 텍스트 데이터의 총량이 유한합니다 (인터넷 전체가 수조 토큰). 2) 에너지/비용: 학습 비용이 기하급수적으로 증가합니다. 3) 수확 체감: 스케일링 지수()가 0.05~0.1 수준이므로, 10배 더 투자해도 성능 향상은 제한적입니다. 4) 데이터 품질: 양보다 질이 중요해지는 지점이 있습니다.
작은 모델로도 좋은 성능을 낼 수 있나요?
작은 모델로도 좋은 성능을 낼 수 있나요?
가능합니다. 스케일링 법칙은 범용 사전학습에 대한 것이며, 특정 도메인에서는 작은 모델 + Fine-tuning이 큰 범용 모델보다 나을 수 있습니다. 예를 들어, 감성 분류 태스크에서 BERT-Base(110M)를 Fine-tuning한 것이 GPT-3(175B)의 Few-shot보다 우수한 경우가 많습니다. 또한 지식 증류(Knowledge Distillation), 양자화, 프루닝 등으로 큰 모델의 지식을 작은 모델로 전달할 수 있습니다.
학습 데이터의 품질은 스케일링 법칙에 어떤 영향을 미치나요?
학습 데이터의 품질은 스케일링 법칙에 어떤 영향을 미치나요?
스케일링 법칙의 초기 연구는 데이터 품질을 상수로 가정했지만, 실제로는 데이터 품질이 매우 중요합니다. LLaMA의 성공은 Common Crawl에서 고품질 데이터를 엄격히 필터링한 결과입니다. 같은 토큰 수라도 고품질 데이터로 학습하면 성능이 크게 다릅니다. 최근 연구에서는 데이터 품질을 포함한 확장된 스케일링 법칙(data-quality-aware scaling laws)도 제안되고 있습니다.
스케일링 법칙 요약 테이블
| 법칙 | 핵심 주장 | 최적 전략 |
|---|---|---|
| Kaplan (2020) | 모델 크기를 우선 키워라 | 큰 모델 + 적은 데이터 |
| Chinchilla (2022) | 모델과 데이터를 균등하게 | D ≈ 20N |
| Over-training (2024~) | 추론 비용을 고려하라 | 작은 모델 + 매우 많은 데이터 |
체크리스트
학습을 마치셨다면 아래 항목을 확인해 보세요.- 스케일링 법칙의 세 변수(N, D, C)와 거듭제곱 관계를 설명할 수 있다
- Kaplan 법칙과 Chinchilla 법칙의 핵심 차이를 설명할 수 있다
- Chinchilla 최적 비율(D ≈ 20N)의 의미와 한계를 이해한다
- 주어진 컴퓨팅 예산에서 최적 모델 크기를 추정할 수 있다
- 창발적 능력의 개념과 최소 3가지 사례를 나열할 수 있다
- 공식으로 학습 비용을 대략적으로 계산할 수 있다
- Over-training 전략의 동기와 적합한 상황을 설명할 수 있다

