LLM Fine-Tuning
대규모 언어 모델(LLM)을 도메인별 데이터로 파인튜닝하는 가이드입니다. SFT, RLHF, DPO 등 주요 기법과 PEFT/LoRA 기반 효율적 학습을 다룹니다.콘텐츠 준비 중입니다. 곧 업데이트됩니다.
다룰 내용
파인튜닝 기법
- SFT (Supervised Fine-Tuning)
- RLHF (Reinforcement Learning from Human Feedback)
- DPO (Direct Preference Optimization)
- ORPO, SimPO
효율적 학습
- LoRA / QLoRA
- PEFT (Parameter-Efficient Fine-Tuning)
- Unsloth 가속 학습
데이터 준비
- 학습 데이터셋 구축
- 데이터 품질 관리
- Argilla 기반 라벨링
도구 및 프레임워크
- Hugging Face TRL
- Axolotl
- LLaMA-Factory
- 평가 및 벤치마크

