파인튜닝 개요
파인튜닝은 “모델을 더 똑똑하게” 만드는 작업이 아닙니다. 정확히는 “우리 업무에서 반복되는 실패 패턴을 줄이는 작업”입니다.파인튜닝이 해결하는 문제
- 출력 형식이 자주 깨진다
- 도메인 용어 이해가 약하다
- 특정 작업에서 일관성이 부족하다
- 긴 지시를 따라도 핵심 제약을 놓친다
전체 파이프라인
실무 산출물 체크리스트
| 단계 | 필수 산출물 |
|---|---|
| 문제 정의 | KPI 문서, 성공/실패 예시 20개 이상 |
| 데이터 설계 | 데이터 스키마, 라벨링 가이드, 품질 리포트 |
| 학습 | 실험 로그(파라미터/시드/버전), 체크포인트 |
| 평가 | 자동 지표 + 사람 평가 결과, 에러 분류표 |
| 배포 | 롤백 기준, 모니터링 대시보드, 릴리즈 노트 |
가장 흔한 실패 원인
데이터셋이 문제 정의와 맞지 않음
데이터셋이 문제 정의와 맞지 않음
모델이 틀린 이유를 데이터가 설명하지 못하면 성능이 올라가지 않습니다.
먼저 실패 케이스를 유형화하고, 그 유형을 데이터에 반영하세요.
평가셋 오염
평가셋 오염
학습셋과 평가셋이 유사하거나 중복되면 지표가 과대평가됩니다.
해시/유사도 기반 중복 제거를 반드시 수행하세요.
한 번에 너무 많은 변경
한 번에 너무 많은 변경
모델, 데이터, 프롬프트, 디코딩 파라미터를 동시에 바꾸면 원인 분석이 불가능합니다.
실험은 한 변수만 바꾸는 방식으로 진행하세요.
파인튜닝 성능의 대부분은 모델보다 데이터 설계에서 결정됩니다.
SFT 이전에 데이터 품질 기준부터 고정하세요.

