데이터셋 설계
파인튜닝의 품질은 데이터셋에서 결정됩니다. 모델 선택보다 먼저 데이터 스키마와 검증 규칙을 고정하세요.데이터 유형
Instruction 데이터
질문/지시와 정답 응답을 짝으로 구성하는 기본 학습 데이터
Preference 데이터
두 응답 간 선호를 라벨링해 정렬 학습(DPO/ORPO)에 사용하는 데이터
품질 검증
중복, 오염, 포맷 오류, 라벨 일관성 검사를 자동화하는 기준
권장 데이터 분할
| split | 권장 비율 | 목적 |
|---|---|---|
| train | 70-80% | 모델 학습 |
| valid | 10-15% | 하이퍼파라미터 선택, 조기 종료 |
| holdout | 10-15% | 최종 일반화 성능 검증 |
최소 품질 기준
- 입력/출력 포맷 검증 통과율 99% 이상
- near-duplicate 비율 5% 이하
- 민감정보(PII) 탐지 후 마스킹 완료
- 저품질 라벨(모순/무의미 응답) 비율 2% 이하
운영 팁
- 라벨러 가이드는 예시 중심으로 작성합니다
- 데이터 버전은 날짜가 아니라 의미 있는 태그로 관리합니다
- 평가셋은 학습셋보다 보수적으로 정제합니다

