데이터셋 설계 - 배움 에이아이

파인튜닝의 품질은 데이터셋에서 결정됩니다. 모델 선택보다 먼저 데이터 스키마와 검증 규칙을 고정합니다.

데이터 유형

Instruction 데이터

질문/지시와 정답 응답을 짝으로 구성하는 기본 학습 데이터

Preference 데이터

두 응답 간 선호를 라벨링해 정렬 학습(DPO/ORPO)에 사용하는 데이터

품질 검증

중복, 오염, 포맷 오류, 라벨 일관성 검사를 자동화하는 기준

권장 데이터 분할

split	권장 비율	목적
train	70-80%	모델 학습
valid	10-15%	하이퍼파라미터 선택, 조기 종료
holdout	10-15%	최종 일반화 성능 검증

Instruction 데이터와 Preference 데이터를 같은 원문에서 동시에 만들 경우, 동일 샘플이 여러 split에 섞이지 않도록 원본 단위 분할을 먼저 수행합니다.

최소 품질 기준

입력/출력 포맷 검증 통과율 99% 이상
near-duplicate 비율 5% 이하
민감정보(PII) 탐지 후 마스킹 완료
저품질 라벨(모순/무의미 응답) 비율 2% 이하

운영 팁

라벨러 가이드는 예시 중심으로 작성합니다
데이터 버전은 날짜가 아니라 의미 있는 태그로 관리합니다
평가셋은 학습셋보다 보수적으로 정제합니다

학습 완료 기준

이 섹션의 핵심 개념을 팀 문서로 설명할 수 있습니다.
최소 1개 운영 시나리오를 직접 실행하고 결과를 기록할 수 있습니다.
실패 기준과 롤백 기준을 문서로 정의할 수 있습니다.
다음 섹션으로 넘어가기 전 필수 체크리스트를 완료할 수 있습니다.

실무 적용 체크리스트

현재 운영 중인 모델/프롬프트 버전을 식별할 수 있습니다.
품질·비용·지연 중 우선 KPI를 1순위로 정했습니다.
실험과 운영 환경(dev/stage/prod) 경계를 분리했습니다.
주간 리뷰 주기와 담당자를 지정했습니다.

다음 문서

다음: Instruction 데이터 포맷

학습 흐름을 이어서 진행합니다.

언제 파인튜닝할까 Instruction 데이터 포맷