LLaMA 계열 — 오픈소스 LLM의 진화
GPT 계열이 API 기반의 비공개 모델로 발전한 반면, Meta의 LLaMA를 시작으로 오픈소스 LLM 생태계가 급격히 성장했습니다. 이 문서에서는 LLaMA 시리즈와 그에 영향을 받은 주요 오픈소스 모델들의 아키텍처 혁신을 분석합니다.핵심 아이디어
오픈소스 LLM은 GPT 계열과 같은 디코더 전용(decoder-only) Transformer 구조를 기반으로 하되, 다음과 같은 아키텍처 개선을 적용합니다.| 기술 | 목적 | 적용 모델 |
|---|---|---|
| RoPE (Rotary Position Embedding) | 상대 위치 인코딩, 외삽(extrapolation) 가능 | LLaMA, Mistral, Qwen |
| SwiGLU | 더 효과적인 활성화 함수 | LLaMA, Mistral, Qwen |
| RMSNorm | 학습 안정성 + 효율성 | LLaMA, Mistral, Qwen |
| GQA (Grouped-Query Attention) | 추론 효율성 (KV 캐시 절약) | LLaMA 2, Mistral, Qwen |
| Sliding Window Attention | 긴 시퀀스 효율적 처리 | Mistral |
동작 방식: 주요 아키텍처 혁신
RoPE (Rotary Position Embedding)
기존의 학습 가능한 위치 임베딩(BERT, GPT)이나 사인/코사인 위치 인코딩(Transformer 원본)과 달리, RoPE는 쿼리와 키 벡터에 **회전 변환(rotation)**을 적용하여 상대 위치 정보를 인코딩합니다. 여기서 은 위치 에 대한 회전 행렬이고, 는 주파수 파라미터입니다. 핵심 성질: 위치 의 쿼리와 위치 의 키 사이의 어텐션은 **상대 거리 **에만 의존합니다.SwiGLU 활성화 함수
LLaMA는 기존 Transformer의 ReLU FFN 대신 SwiGLU를 사용합니다. 여기서 이고, 는 요소별 곱셈입니다.GQA (Grouped-Query Attention)
표준 Multi-Head Attention(MHA)에서는 각 Head가 독립적인 Q, K, V를 가집니다. GQA는 여러 Query Head가 하나의 Key-Value Head를 공유하여 KV 캐시 메모리를 절약합니다.| 방식 | KV Head 수 | KV 캐시 | 성능 |
|---|---|---|---|
| MHA | = Q Head 수 | 최대 | 최고 |
| GQA | Q Head / 그룹 수 | 중간 | MHA에 근접 |
| MQA | 1 | 최소 | 약간 하락 |
모델별 상세 비교
LLaMA (Meta, 2023.02)
Meta가 공개한 최초의 대규모 오픈소스 LLM입니다. “작은 모델을 더 많은 데이터로 학습하면 큰 모델과 비슷한 성능을 달성할 수 있다”는 Chinchilla Scaling Law를 따릅니다.| 모델 | 파라미터 | 학습 토큰 | 컨텍스트 | 특징 |
|---|---|---|---|---|
| LLaMA 7B | 7B | 1T | 2,048 | 가장 효율적 |
| LLaMA 13B | 13B | 1T | 2,048 | GPT-3 175B와 비슷 |
| LLaMA 33B | 33B | 1.4T | 2,048 | |
| LLaMA 65B | 65B | 1.4T | 2,048 | Chinchilla에 근접 |
LLaMA 2 (Meta, 2023.07)
| 개선 사항 | LLaMA 1 | LLaMA 2 |
|---|---|---|
| 학습 데이터 | 1~1.4T 토큰 | 2T 토큰 (40% 증가) |
| 컨텍스트 | 2,048 | 4,096 (2배) |
| Attention | MHA | GQA (70B 모델) |
| 라이선스 | 연구용 | 상업용 허용 |
| RLHF | 없음 | LLaMA 2-Chat (RLHF 적용) |
LLaMA 3 / 3.1 (Meta, 2024)
| 항목 | LLaMA 2 | LLaMA 3 | LLaMA 3.1 |
|---|---|---|---|
| 최대 파라미터 | 70B | 70B | 405B |
| 학습 토큰 | 2T | 15T | 15T+ |
| 컨텍스트 | 4,096 | 8,192 | 128,000 |
| 어휘 크기 | 32,000 | 128,256 | 128,256 |
| GQA | 70B만 | 전 모델 | 전 모델 |
| 멀티모달 | 없음 | 없음 | 비전 + 코드 |
Mistral (Mistral AI, 2023.09)
프랑스 스타트업 Mistral AI가 공개한 모델로, 작은 크기에서 놀라운 효율성을 보여줍니다.| 항목 | Mistral 7B | Mixtral 8x7B |
|---|---|---|
| 파라미터 | 7.3B | 46.7B (활성 12.9B) |
| 아키텍처 | Dense Transformer | Mixture of Experts (MoE) |
| 컨텍스트 | 32,768 | 32,768 |
| Attention | GQA + Sliding Window | GQA + Sliding Window |
| 성능 | LLaMA 2 13B 초과 | LLaMA 2 70B와 비슷 |
Sliding Window Attention (SWA)
Mistral의 핵심 혁신 중 하나입니다. 각 토큰이 전체 시퀀스가 아닌 고정 크기 윈도우 내의 토큰만 직접 참조합니다. 윈도우 크기가 이고 레이어 수가 이면, 이론적으로 거리의 토큰 정보가 전달됩니다. Mistral 7B의 경우 , 이므로 약 131,072 토큰의 정보를 간접적으로 참조할 수 있습니다.Qwen (Alibaba, 2023~)
Alibaba Cloud가 공개한 모델로, 중국어와 영어 모두에서 우수한 성능을 보입니다.| 항목 | Qwen 1.5 | Qwen 2 | Qwen 2.5 |
|---|---|---|---|
| 최대 파라미터 | 110B | 72B | 72B |
| 컨텍스트 | 32,768 | 128,000 | 128,000 |
| 다국어 | 중영 중심 | 29개 언어 | 29개 언어+ |
| 코딩 | 기본 | Qwen2-Coder | Qwen2.5-Coder |
| 수학 | 기본 | 개선 | Qwen2.5-Math |
종합 비교 테이블
| 모델 | 파라미터 | 컨텍스트 | 라이선스 | 핵심 혁신 |
|---|---|---|---|---|
| LLaMA 1 (7/13/33/65B) | 7~65B | 2,048 | 연구용 | RoPE, SwiGLU, RMSNorm |
| LLaMA 2 (7/13/70B) | 7~70B | 4,096 | 상업용 | GQA, RLHF Chat |
| LLaMA 3.1 (8/70/405B) | 8~405B | 128K | 상업용 | 15T 토큰, 128K vocab |
| Mistral 7B | 7.3B | 32K | Apache 2.0 | SWA, Rolling Buffer |
| Mixtral 8x7B | 46.7B (12.9B active) | 32K | Apache 2.0 | Sparse MoE |
| Qwen 2.5 (0.5~72B) | 0.5~72B | 128K | Apache 2.0 | 다국어, 코드, 수학 특화 |
구현: 오픈소스 LLM 추론
양자화를 활용한 경량 추론
LLaMA의 RoPE가 기존 위치 인코딩보다 좋은 이유는 무엇인가요?
LLaMA의 RoPE가 기존 위치 인코딩보다 좋은 이유는 무엇인가요?
RoPE의 장점은 세 가지입니다. 1) 상대 위치: 절대 위치가 아닌 토큰 간 상대 거리를 인코딩하여 위치 일반화가 우수합니다. 2) 외삽 가능: 학습 시 사용한 길이보다 긴 시퀀스에도 적용할 수 있습니다 (NTK-aware scaling 등의 기법과 결합). 3) 추가 파라미터 없음: 수학적 변환이므로 학습 가능한 파라미터가 불필요합니다.
Mixture of Experts (MoE)는 무엇인가요?
Mixture of Experts (MoE)는 무엇인가요?
MoE는 여러 개의 전문가 네트워크(Expert) 중 일부만 선택적으로 활성화하는 구조입니다. Mixtral 8x7B의 경우 8개 FFN 전문가 중 토큰당 2개만 활성화합니다. 총 파라미터는 46.7B이지만 추론 시 활성 파라미터는 12.9B에 불과하여, 큰 모델의 성능을 작은 연산 비용으로 달성합니다. Router 네트워크가 각 토큰을 적합한 전문가에게 라우팅합니다.
오픈소스 LLM을 상업적으로 사용해도 되나요?
오픈소스 LLM을 상업적으로 사용해도 되나요?
라이선스에 따라 다릅니다. LLaMA 2/3는 Meta의 커뮤니티 라이선스로, 월 활성 사용자 7억 이하의 서비스에서 상업 이용이 가능합니다. Mistral과 Qwen 2.5는 Apache 2.0 라이선스로, 제한 없이 상업 이용이 가능합니다. 각 모델의 라이선스를 반드시 확인해야 합니다.
참고 논문
| 논문 | 저자 | 연도 | 핵심 기여 |
|---|---|---|---|
| LLaMA: Open and Efficient Foundation Language Models | Touvron et al. | 2023 | 오픈소스 LLM, RoPE+SwiGLU+RMSNorm |
| Llama 2: Open Foundation and Fine-Tuned Chat Models | Touvron et al. | 2023 | GQA, RLHF Chat, 상업용 라이선스 |
| Mistral 7B | Jiang et al. | 2023 | Sliding Window Attention, 효율성 |
| Mixtral of Experts | Jiang et al. | 2024 | Sparse MoE |
| RoFormer: Enhanced Transformer with Rotary Position Embedding | Su et al. | 2021 | RoPE |

