Skip to main content

LLM Fine-Tuning

대규모 언어 모델(LLM)을 도메인별 데이터로 파인튜닝하는 가이드입니다. SFT, RLHF, DPO 등 주요 기법과 PEFT/LoRA 기반 효율적 학습을 다룹니다.
콘텐츠 준비 중입니다. 곧 업데이트됩니다.

다룰 내용

파인튜닝 기법

  • SFT (Supervised Fine-Tuning)
  • RLHF (Reinforcement Learning from Human Feedback)
  • DPO (Direct Preference Optimization)
  • ORPO, SimPO

효율적 학습

  • LoRA / QLoRA
  • PEFT (Parameter-Efficient Fine-Tuning)
  • Unsloth 가속 학습

데이터 준비

  • 학습 데이터셋 구축
  • 데이터 품질 관리
  • Argilla 기반 라벨링

도구 및 프레임워크

  • Hugging Face TRL
  • Axolotl
  • LLaMA-Factory
  • 평가 및 벤치마크