SFT와 PEFT
SFT는 모델의 기본 행동을 도메인에 맞게 재조정하는 단계입니다. 대부분의 팀은 풀 파인튜닝보다 PEFT(LoRA/QLoRA)부터 시작합니다.학습 경로
SFT 기본 원칙
- 데이터 품질이 하이퍼파라미터보다 중요합니다
- 먼저 작은 모델/짧은 실험으로 검증합니다
- 학습 손실만 보지 말고 다운스트림 태스크 지표를 함께 봅니다
- 실험은 재현 가능해야 합니다(시드, 버전, 환경 고정)
권장 실험 순서
- 베이스라인 측정(튜닝 전)
- LoRA 소규모 실험
- QLoRA 메모리 최적화 실험
- 데이터/학습률/epoch 조정
- 체크포인트 선택 후 평가

