학습 경로
LoRA / QLoRA
메모리 절감 방식과 적용 기준을 비교합니다
Unsloth + TRL 워크플로우
실무에서 자주 쓰는 학습 루틴과 체크포인트 관리를 설명합니다
SFT 기본 원칙
- 데이터 품질이 하이퍼파라미터보다 중요합니다
- 먼저 작은 모델/짧은 실험으로 검증합니다
- 학습 손실만 보지 말고 다운스트림 태스크 지표를 함께 봅니다
- 실험은 재현 가능해야 합니다(시드, 버전, 환경 고정)
권장 실험 순서
- 베이스라인 측정(튜닝 전)
- LoRA 소규모 실험
- QLoRA 메모리 최적화 실험
- 데이터/학습률/epoch 조정
- 체크포인트 선택 후 평가
학습 완료 기준
- 이 섹션의 핵심 개념을 팀 문서로 설명할 수 있습니다.
- 최소 1개 운영 시나리오를 직접 실행하고 결과를 기록할 수 있습니다.
- 실패 기준과 롤백 기준을 문서로 정의할 수 있습니다.
- 다음 섹션으로 넘어가기 전 필수 체크리스트를 완료할 수 있습니다.
실무 적용 체크리스트
- 현재 운영 중인 모델/프롬프트 버전을 식별할 수 있습니다.
- 품질·비용·지연 중 우선 KPI를 1순위로 정했습니다.
- 실험과 운영 환경(dev/stage/prod) 경계를 분리했습니다.
- 주간 리뷰 주기와 담당자를 지정했습니다.
다음 문서
다음: LoRA와 QLoRA
학습 흐름을 이어서 진행합니다.

