Skip to main content

데이터셋 설계

파인튜닝의 품질은 데이터셋에서 결정됩니다. 모델 선택보다 먼저 데이터 스키마와 검증 규칙을 고정하세요.

데이터 유형

권장 데이터 분할

split권장 비율목적
train70-80%모델 학습
valid10-15%하이퍼파라미터 선택, 조기 종료
holdout10-15%최종 일반화 성능 검증
Instruction 데이터와 Preference 데이터를 같은 원문에서 동시에 만들 경우, 동일 샘플이 여러 split에 섞이지 않도록 원본 단위 분할을 먼저 수행하세요.

최소 품질 기준

  • 입력/출력 포맷 검증 통과율 99% 이상
  • near-duplicate 비율 5% 이하
  • 민감정보(PII) 탐지 후 마스킹 완료
  • 저품질 라벨(모순/무의미 응답) 비율 2% 이하

운영 팁

  • 라벨러 가이드는 예시 중심으로 작성합니다
  • 데이터 버전은 날짜가 아니라 의미 있는 태그로 관리합니다
  • 평가셋은 학습셋보다 보수적으로 정제합니다