스케일링 법칙

스케일링 법칙(Scaling Laws)은 모델 크기(N), 학습 데이터 양(D), 컴퓨팅 예산(C) 사이의 수학적 관계를 규명합니다. 이 법칙을 이해하면 제한된 자원에서 최적의 모델을 학습하는 전략을 수립할 수 있습니다.

학습 목표

이 문서를 완료하면 다음을 할 수 있습니다.

Kaplan et al.의 초기 스케일링 법칙과 Chinchilla의 수정된 법칙의 차이를 설명할 수 있습니다
주어진 컴퓨팅 예산에서 최적의 모델 크기와 데이터 양을 추정할 수 있습니다
창발적 능력(emergent abilities)의 개념과 사례를 이해합니다
실무에서 모델 선택과 학습 전략에 스케일링 법칙을 적용할 수 있습니다

왜 중요한가

LLM 학습에는 막대한 비용이 소요됩니다. GPT-4의 학습 비용은 수천만 달러로 추정됩니다. 스케일링 법칙은 이 투자를 최적화하는 과학적 근거를 제공합니다.

자원 배분 최적화: 고정된 GPU 예산에서 모델을 크게 할지, 데이터를 많이 쓸지 결정합니다
성능 예측: 더 큰 모델의 성능을 작은 실험으로 예측할 수 있습니다
비용 대비 효율: 투자 대비 최대 성능을 달성하는 전략을 수립합니다
산업 트렌드 이해: 왜 기업들이 점점 더 큰 모델을 학습하는지 이해합니다

핵심 개념

Kaplan et al. (2020) — 초기 스케일링 법칙

OpenAI 연구자들이 발표한 최초의 체계적 스케일링 법칙 연구입니다. 언어 모델의 성능(교차 엔트로피 손실)이 모델 크기, 데이터 양, 컴퓨팅의 **거듭제곱 법칙(power law)**을 따른다는 것을 밝혔습니다.

세 가지 스케일링 관계

모델 크기와 성능:

L(N) = \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad \alpha_N \approx 0.076

데이터 양과 성능:

L(D) = \left(\frac{D_c}{D}\right)^{\alpha_D}, \quad \alpha_D \approx 0.095

컴퓨팅과 성능:

L(C) = \left(\frac{C_c}{C}\right)^{\alpha_C}, \quad \alpha_C \approx 0.050

여기서

L

은 테스트 손실,

N

은 파라미터 수,

D

는 학습 토큰 수,

C

는 컴퓨팅(FLOPs)입니다.

Kaplan의 핵심 주장

“컴퓨팅 예산이 고정되면, 큰 모델을 적은 데이터로 학습하는 것이 작은 모델을 많은 데이터로 학습하는 것보다 낫다.”

이 주장은 GPT-3의 설계 철학(175B 파라미터, 상대적으로 적은 300B 토큰)에 직접 영향을 미쳤습니다.

Chinchilla (Hoffmann et al., 2022) — 수정된 스케일링 법칙

DeepMind의 Chinchilla 논문은 Kaplan의 주장을 수정했습니다. 최적의 컴퓨팅 할당은 모델 크기와 데이터 양에 균등하게 배분하는 것이라는 결론을 내렸습니다.

Chinchilla 최적 비율

N_{opt} \propto C^{0.5}, \quad D_{opt} \propto C^{0.5}

즉, 컴퓨팅이 10배 증가하면 모델 크기와 데이터 양을 각각

\sqrt{10} \approx 3.16

배 증가시키는 것이 최적입니다. Chinchilla 규칙(rule of thumb):

D_{opt} \approx 20 \times N

최적 학습 토큰 수는 파라미터 수의 약 20배입니다.

모델	파라미터 (N)	학습 토큰 (D)	D/N 비율	Chinchilla 최적?
GPT-3	175B	300B	1.7	과소 학습 (Under-trained)
Gopher	280B	300B	1.1	심하게 과소 학습
Chinchilla	70B	1.4T	20	최적
LLaMA 1 65B	65B	1.4T	21.5	약간 초과 (좋음)
LLaMA 2 70B	70B	2T	28.6	Chinchilla 초과
LLaMA 3 70B	70B	15T	214	크게 초과 (의도적)

Chinchilla vs Gopher 비교

항목	Gopher (DeepMind)	Chinchilla
파라미터	280B	70B (4배 작음)
학습 토큰	300B	1.4T (4.7배 많음)
학습 FLOPs	동일	동일
성능	베이스라인	모든 벤치마크에서 우위

동일한 컴퓨팅 예산으로, 더 작은 모델을 더 많은 데이터로 학습한 Chinchilla가 훨씬 우수한 성능을 보였습니다.

Chinchilla 이후: Over-training 전략

흥미롭게도, 최근 모델들(LLaMA 3)은 Chinchilla 최적 비율을 의도적으로 초과하여 학습합니다. 이유:

추론 비용 절감: 학습은 1회이지만, 추론은 수백만 번 실행됩니다. 더 작은 모델을 더 많은 데이터로 학습하면 추론 비용이 절감됩니다.
추론 성능 중시: 추론 시 모델 크기가 작을수록 지연 시간이 줄어듭니다.
데이터 증가 효과: Chinchilla 비율을 넘어서도 데이터 추가 학습의 효과가 완전히 사라지지 않습니다.

전략	학습 비용	추론 비용	적합한 상황
Chinchilla 최적	효율적	높음 (큰 모델)	학습 비용이 주된 병목
Over-training	학습 비용 증가	낮음 (작은 모델)	대규모 추론 서비스

창발적 능력 (Emergent Abilities)

특정 스케일을 넘어서면 예상하지 못한 능력이 갑자기 나타나는 현상입니다.

능력	나타나는 스케일	설명
Few-shot Learning	~10B	몇 개의 예시만으로 새로운 태스크 수행
Chain-of-Thought	~100B	단계별 추론 능력
코드 생성	~50B	프로그래밍 코드 작성
수학적 추론	~100B	수학 문제 풀이
다단계 논리	~100B+	복잡한 논리적 추론

주의: 창발적 능력의 “갑작스러운” 등장은 평가 메트릭의 선택에 따라 달라질 수 있다는 반론이 있습니다 (Schaeffer et al., 2024). 연속적 메트릭(continuous metrics)을 사용하면 점진적 향상으로 관찰되는 경우도 있습니다.

컴퓨팅 비용 추정

대규모 모델 학습에 필요한 컴퓨팅을 추정하는 공식입니다.

C \approx 6ND

여기서:

$C$ : 학습에 필요한 총 FLOPs
$N$ : 모델 파라미터 수
$D$ : 학습 토큰 수
6: Forward(2) + Backward(4) 연산 상수

def estimate_training_cost(params_b, tokens_b, gpu_tflops=312, gpu_utilization=0.5):
    """학습 비용을 추정합니다.

    Args:
        params_b: 파라미터 수 (십억 단위)
        tokens_b: 학습 토큰 수 (십억 단위)
        gpu_tflops: GPU 이론 성능 (A100: 312 TFLOPS)
        gpu_utilization: GPU 활용률 (보통 30-50%)

    Returns:
        dict: GPU 시간, 비용 등 추정치
    """
    # 총 FLOPs 계산
    total_flops = 6 * (params_b * 1e9) * (tokens_b * 1e9)

    # 유효 GPU 성능 (TFLOPS → FLOPS)
    effective_tflops = gpu_tflops * gpu_utilization * 1e12

    # GPU 시간 (초)
    gpu_seconds = total_flops / effective_tflops
    gpu_hours = gpu_seconds / 3600

    # 비용 추정 (A100 시간당 약 $2)
    cost_per_gpu_hour = 2.0
    total_cost = gpu_hours * cost_per_gpu_hour

    return {
        "total_flops": f"{total_flops:.2e}",
        "gpu_hours": f"{gpu_hours:,.0f}",
        "gpu_days": f"{gpu_hours / 24:,.0f}",
        "estimated_cost": f"${total_cost:,.0f}",
        "a100_gpu_days_1k": f"{gpu_hours / 24 / 1000:,.1f}k GPU-days",
    }

# 주요 모델 학습 비용 추정
models = [
    ("BERT-Base", 0.11, 137),       # 110M params, 137B tokens (3.3B words * ~40 epochs)
    ("GPT-3", 175, 300),             # 175B params, 300B tokens
    ("LLaMA 2 70B", 70, 2000),      # 70B params, 2T tokens
    ("LLaMA 3 70B", 70, 15000),     # 70B params, 15T tokens
]

for name, params, tokens in models:
    result = estimate_training_cost(params, tokens)
    print(f"{name}: {result['gpu_hours']} GPU-hours, {result['estimated_cost']}")

Chinchilla 최적 모델 크기 계산기

def chinchilla_optimal(compute_budget_pflops_days):
    """Chinchilla 스케일링 법칙에 따른 최적 모델 크기를 계산합니다.

    Args:
        compute_budget_pflops_days: 컴퓨팅 예산 (PetaFLOPS-days)

    Returns:
        dict: 최적 파라미터 수, 최적 토큰 수
    """
    # PetaFLOPS-days → 총 FLOPs
    total_flops = compute_budget_pflops_days * 1e15 * 86400

    # Chinchilla 최적 비율: C ≈ 6ND, D ≈ 20N
    # C = 6 * N * 20N = 120 * N^2
    # N = sqrt(C / 120)
    optimal_n = (total_flops / 120) ** 0.5
    optimal_d = 20 * optimal_n

    return {
        "optimal_params": f"{optimal_n / 1e9:.1f}B",
        "optimal_tokens": f"{optimal_d / 1e9:.0f}B",
        "ratio_d_n": f"{optimal_d / optimal_n:.0f}x",
        "compute_pflops_days": compute_budget_pflops_days,
    }

# 다양한 컴퓨팅 예산에서의 최적 설정
budgets = [100, 1000, 10000, 100000]  # PetaFLOPS-days
for budget in budgets:
    result = chinchilla_optimal(budget)
    print(f"예산 {budget:>6} PF-days → "
          f"모델: {result['optimal_params']}, "
          f"토큰: {result['optimal_tokens']}, "
          f"비율: {result['ratio_d_n']}")

AI/머신러닝 활용

스케일링 법칙은 실무에서 다음과 같이 활용됩니다.

모델 선택: 주어진 인프라(GPU, 메모리)에서 최적의 모델 크기 결정
데이터 전략: 필요한 학습 데이터 양 추정 및 데이터 수집 계획 수립
예산 계획: GPU 클라우드 비용 추정 및 학습 시간 예측
성능 예측: 작은 모델 실험으로 큰 모델의 성능 사전 예측
Fine-tuning 전략: 사전학습 모델 선택 시 학습 충분도 평가

Chinchilla 법칙이 항상 적용되나요?

Chinchilla 법칙은 사전학습 손실(pre-training loss)을 최적화하는 관점에서 도출되었습니다. 다운스트림 태스크 성능, 추론 비용, 배포 환경 등을 고려하면 최적 비율이 달라질 수 있습니다. 예를 들어, LLaMA 3는 의도적으로 Chinchilla 비율을 초과(70B 파라미터, 15T 토큰)하여 추론 효율성을 극대화했습니다. 실무에서는 Chinchilla를 출발점으로 삼되, 사용 목적에 맞게 조정하는 것이 바람직합니다.

스케일링 법칙이 무한히 적용될 수 있나요?

이론적 한계는 명확하지 않지만, 실질적 제약이 존재합니다. 1) 데이터 한계: 고품질 텍스트 데이터의 총량이 유한합니다 (인터넷 전체가 수조 토큰). 2) 에너지/비용: 학습 비용이 기하급수적으로 증가합니다. 3) 수확 체감: 스케일링 지수(

\alpha

)가 0.05~0.1 수준이므로, 10배 더 투자해도 성능 향상은 제한적입니다. 4) 데이터 품질: 양보다 질이 중요해지는 지점이 있습니다.

작은 모델로도 좋은 성능을 낼 수 있나요?

가능합니다. 스케일링 법칙은 범용 사전학습에 대한 것이며, 특정 도메인에서는 작은 모델 + Fine-tuning이 큰 범용 모델보다 나을 수 있습니다. 예를 들어, 감성 분류 태스크에서 BERT-Base(110M)를 Fine-tuning한 것이 GPT-3(175B)의 Few-shot보다 우수한 경우가 많습니다. 또한 지식 증류(Knowledge Distillation), 양자화, 프루닝 등으로 큰 모델의 지식을 작은 모델로 전달할 수 있습니다.

학습 데이터의 품질은 스케일링 법칙에 어떤 영향을 미치나요?

스케일링 법칙의 초기 연구는 데이터 품질을 상수로 가정했지만, 실제로는 데이터 품질이 매우 중요합니다. LLaMA의 성공은 Common Crawl에서 고품질 데이터를 엄격히 필터링한 결과입니다. 같은 토큰 수라도 고품질 데이터로 학습하면 성능이 크게 다릅니다. 최근 연구에서는 데이터 품질을 포함한 확장된 스케일링 법칙(data-quality-aware scaling laws)도 제안되고 있습니다.