한국어 LLM — 한국어 대규모 언어 모델
GPT, LLaMA 등 영어 중심 LLM의 한국어 성능은 제한적입니다. 한국어의 문법 구조, 존대법, 문화적 맥락을 이해하기 위해 한국어에 특화된 LLM들이 개발되고 있습니다. 이 문서에서는 한국어 LLM의 현황과 실무 선택 기준을 다룹니다.학습 목표
이 문서를 완료하면 다음을 할 수 있습니다.- 주요 한국어 LLM(KULLM, SOLAR, EXAONE, HyperCLOVA X)의 특성을 비교할 수 있습니다
- 오픈소스 vs 비공개 모델의 장단점과 선택 기준을 이해합니다
- 한국어 LLM을 HuggingFace로 로드하고 추론을 수행할 수 있습니다
- 프로젝트 요구사항에 맞는 한국어 LLM을 선택할 수 있습니다
왜 중요한가
한국어 LLM 생태계는 빠르게 발전하고 있으며, 실무에서 올바른 모델 선택이 중요합니다.- 한국어 품질: 영어 LLM의 한국어 출력보다 자연스럽고 정확한 결과를 얻을 수 있습니다
- 데이터 주권: 사내 데이터를 외부 API로 보내지 않고 온프레미스에서 처리할 수 있습니다
- 비용 효율성: API 호출 비용 대신 자체 인프라에서 운영하여 비용을 절감할 수 있습니다
- 커스터마이징: Fine-tuning을 통해 특정 도메인(법률, 의료, 금융 등)에 최적화할 수 있습니다
핵심 개념
한국어 LLM 개발 접근법
한국어 LLM은 크게 세 가지 방식으로 개발됩니다.KULLM (Korea University, 2023)
고려대학교 NLP&AI 연구실에서 공개한 한국어 LLM으로, 영어 모델을 한국어에 적응시킨 초기 시도 중 하나입니다.| 항목 | KULLM v2 |
|---|---|
| 발표 | 2023, 고려대학교 |
| 기반 모델 | LLaMA 2 |
| 파라미터 | 13B |
| 학습 방식 | 한국어 Instruction Tuning |
| 학습 데이터 | GPT4ALL, Dolly, ShareGPT의 한국어 번역 |
| 라이선스 | 연구용 |
SOLAR (Upstage, 2023)
Upstage가 개발한 LLM으로, **Depth Up-Scaling(DUS)**이라는 독자적인 기법으로 주목받았습니다.| 항목 | SOLAR 10.7B |
|---|---|
| 발표 | 2023, Upstage |
| 기반 모델 | Mistral 7B → DUS로 확장 |
| 파라미터 | 10.7B |
| 핵심 기법 | Depth Up-Scaling |
| 컨텍스트 | 4,096 |
| 라이선스 | Apache 2.0 |
Depth Up-Scaling (DUS)
기존 모델의 레이어를 복제하고 이어 붙여 더 깊은 모델을 만드는 기법입니다. DUS의 장점:- 처음부터 학습하지 않고 기존 모델의 지식을 재활용합니다
- Mixture of Experts보다 단순하면서도 효과적인 스케일링 방법입니다
- Continue Pre-training만으로 성능을 끌어올릴 수 있습니다
EXAONE (LG AI Research, 2024)
LG AI 연구원이 개발한 Expert AI 모델로, 산업 현장 적용에 중점을 둡니다.| 항목 | EXAONE 3.0 |
|---|---|
| 발표 | 2024, LG AI Research |
| 파라미터 | 7.8B |
| 아키텍처 | Decoder-only Transformer |
| 학습 방식 | 처음부터 사전학습 (한국어 + 영어) |
| 학습 데이터 | 8T 토큰 (한국어 + 영어 + 코드) |
| 컨텍스트 | 4,096 |
| 라이선스 | 비상업적 연구 / 상업용 별도 계약 |
| 특징 | 한국어 1위 (Open Ko-LLM Leaderboard 기준) |
| 모델 | 파라미터 | 컨텍스트 | 특징 |
|---|---|---|---|
| EXAONE 3.5 2.4B | 2.4B | 32K | 경량, 엣지 디바이스 |
| EXAONE 3.5 7.8B | 7.8B | 32K | 범용, 밸런스 |
| EXAONE 3.5 32B | 32B | 32K | 고성능, 전문 태스크 |
HyperCLOVA X (NAVER, 2023~)
NAVER가 개발한 한국어 최대 규모의 LLM입니다. API 서비스(CLOVA Studio)로 제공됩니다.| 항목 | HyperCLOVA X |
|---|---|
| 발표 | 2023~, NAVER |
| 접근 방식 | 처음부터 한국어 중심 사전학습 |
| 학습 데이터 | 한국어 비중 매우 높음 (구체적 규모 미공개) |
| 서비스 | CLOVA Studio (API) |
| 라이선스 | 비공개 (API만 제공) |
| 특징 | 한국 문화/사회 이해도 최고 |
오픈소스 vs 비공개 모델 비교
| 기준 | 오픈소스 (SOLAR, EXAONE) | 비공개 API (HyperCLOVA X, GPT-4) |
|---|---|---|
| 커스터마이징 | Fine-tuning 자유로움 | API 파라미터 조정만 가능 |
| 데이터 보안 | 온프레미스 배포 가능 | 데이터가 외부 서버로 전송 |
| 비용 구조 | 인프라 비용 (GPU) | 토큰당 과금 |
| 성능 | 특화 시 우수 | 범용 성능 높음 |
| 유지보수 | 자체 운영 필요 | 서비스 제공자가 관리 |
| 최신 업데이트 | 수동 업데이트 | 자동 업데이트 |
어떤 모델을 선택해야 할까?
| 상황 | 추천 모델 | 이유 |
|---|---|---|
| 한국어 자연스러움 최우선 | HyperCLOVA X | 한국어 데이터 최다, 문화 이해도 최고 |
| 오픈소스 + 한국어 성능 | EXAONE 3.5 | Open Ko-LLM 상위, 다양한 크기 |
| 상업용 + 경량 | SOLAR 10.7B | Apache 2.0, 효율적 크기 |
| 연구/실험 목적 | KULLM | 학술 연구용, 데이터셋 공개 |
| 데이터 보안 중요 | EXAONE / SOLAR | 온프레미스 배포 가능 |
| 빠른 프로토타이핑 | HyperCLOVA X API | 인프라 없이 즉시 사용 |
| 도메인 특화 필요 | SOLAR + Fine-tuning | Apache 2.0, Fine-tuning 자유 |
종합 비교 테이블
| 모델 | 파라미터 | 개발 | 기반 | 라이선스 | 한국어 특화 | 접근 방식 |
|---|---|---|---|---|---|---|
| KULLM v2 | 13B | 고려대 | LLaMA 2 | 연구용 | Instruction Tuning | 영어 모델 적응 |
| SOLAR 10.7B | 10.7B | Upstage | Mistral | Apache 2.0 | DUS + Continue Pre-train | 영어 모델 확장 |
| EXAONE 3.5 | 2.4~32B | LG AI Research | 자체 | 연구용/상업별도 | 처음부터 학습 | 한영 동시 학습 |
| HyperCLOVA X | 미공개 | NAVER | 자체 | 비공개 (API) | 처음부터 학습 | 한국어 중심 학습 |
HuggingFace 실습
SOLAR 모델 로드 및 추론
EXAONE 모델 로드 및 추론
양자화를 활용한 경량 실행
AI/ML 활용
한국어 LLM의 실무 활용 시나리오입니다.- 고객 서비스 챗봇: 한국어 존대법과 문화적 맥락을 이해하는 대화 시스템 구축
- 문서 요약/분석: 한국어 비즈니스 문서, 보고서, 법률 문서의 자동 요약
- 콘텐츠 생성: 마케팅 카피, 블로그 글, SNS 콘텐츠의 한국어 자동 생성
- 코드 리뷰/생성: 한국어 주석과 문서를 이해하는 코드 어시스턴트
- 교육 콘텐츠: 한국어 학습 자료 자동 생성 및 질의응답
영어 LLM에 한국어 데이터로 Continue Pre-training하면 한국어를 잘 하나요?
영어 LLM에 한국어 데이터로 Continue Pre-training하면 한국어를 잘 하나요?
어느 정도 효과가 있지만, 처음부터 한국어를 포함하여 학습한 모델보다는 제한적입니다. Continue Pre-training은 기존 영어 지식 위에 한국어 패턴을 추가하는 것이므로, 1) 영어 능력이 약간 저하될 수 있고 (catastrophic forgetting), 2) 한국어 고유의 문법 구조 이해가 불완전할 수 있습니다. SOLAR의 DUS 접근법은 이 문제를 모델 구조 확장으로 완화합니다.
한국어 LLM의 토크나이저는 왜 중요한가요?
한국어 LLM의 토크나이저는 왜 중요한가요?
영어 중심 토크나이저(예: LLaMA의 BPE)는 한국어를 비효율적으로 토큰화합니다. 한글 한 글자가 23개 토큰으로 분리되어, 같은 의미의 문장이 영어보다 23배 많은 토큰을 소모합니다. 이는 컨텍스트 윈도우를 빠르게 소진하고, API 비용을 증가시킵니다. 한국어 특화 토크나이저는 한국어 어절/형태소 단위로 효율적 토큰화를 수행합니다.
Open Ko-LLM Leaderboard란 무엇인가요?
Open Ko-LLM Leaderboard란 무엇인가요?
Upstage가 운영하는 한국어 LLM 성능 평가 리더보드입니다. 한국어 번역된 여러 벤치마크(ARC, HellaSwag, MMLU, TruthfulQA, Winogrande 등)로 모델을 평가합니다. 다만 번역된 벤치마크의 한계가 있어, KLUE나 KoBEST 같은 원어민 기준 벤치마크와 함께 참고하는 것이 바람직합니다.
GPU 없이 한국어 LLM을 실행할 수 있나요?
GPU 없이 한국어 LLM을 실행할 수 있나요?
llama.cpp, Ollama 등의 도구를 사용하면 양자화된 모델을 CPU에서 실행할 수 있습니다. GGUF 형식의 4-bit 양자화 모델은 8~16GB RAM의 일반 PC에서도 실행 가능합니다. 다만 생성 속도가 GPU 대비 매우 느리므로(초당 수 토큰), 프로토타이핑이나 개인 학습 용도로 적합합니다.
체크리스트
학습을 마치셨다면 아래 항목을 확인해 보세요.- 한국어 LLM의 세 가지 개발 접근법(영어 적응, 처음부터 학습, 다국어)의 차이를 설명할 수 있다
- KULLM, SOLAR, EXAONE, HyperCLOVA X의 핵심 특징과 한계를 구분할 수 있다
- Depth Up-Scaling(DUS)의 동작 원리를 설명할 수 있다
- 오픈소스와 비공개 모델의 트레이드오프를 이해하고 상황별 선택 기준을 적용할 수 있다
- HuggingFace로 한국어 LLM을 로드하고 추론을 수행할 수 있다
- 양자화를 적용하여 메모리 효율적으로 모델을 실행할 수 있다

