SFT와 PEFT
학습 경로
SFT 기본 원칙
권장 실험 순서

SFT와 PEFT

SFT는 모델의 기본 행동을 도메인에 맞게 재조정하는 단계입니다. 대부분의 팀은 풀 파인튜닝보다 PEFT(LoRA/QLoRA)부터 시작합니다.

학습 경로

LoRA / QLoRA

메모리 절감 방식과 적용 기준을 비교합니다

Unsloth + TRL 워크플로우

실무에서 자주 쓰는 학습 루틴과 체크포인트 관리를 설명합니다

SFT 기본 원칙

데이터 품질이 하이퍼파라미터보다 중요합니다
먼저 작은 모델/짧은 실험으로 검증합니다
학습 손실만 보지 말고 다운스트림 태스크 지표를 함께 봅니다
실험은 재현 가능해야 합니다(시드, 버전, 환경 고정)

권장 실험 순서

베이스라인 측정(튜닝 전)
LoRA 소규모 실험
QLoRA 메모리 최적화 실험
데이터/학습률/epoch 조정
체크포인트 선택 후 평가

데이터 품질 점검 LoRA와 QLoRA