Skip to main content

데이터 품질 점검

품질 점검이 빠지면 파인튜닝이 아니라 노이즈 증폭이 됩니다. 학습 전에 자동 검증을 먼저 통과시키세요.

필수 점검 항목

항목목표 기준점검 방법
스키마 유효성100% 통과JSON Schema/Pydantic 검증
중복/유사중복5% 이하해시 + 임베딩 유사도 검사
라벨 일관성높은 합의율샘플 재라벨링 비교
금칙어/PII0건정규식 + 엔티티 탐지
길이 분포편향 최소화토큰 분포 히스토그램 확인

권장 파이프라인

샘플 수동 검수

자동화만으로 충분하지 않습니다. 최소 100개 샘플은 사람이 직접 읽고 아래를 확인하세요.
  • 요청과 응답이 의미적으로 맞는가
  • 과도한 장문/무의미한 반복이 있는가
  • 한국어 문맥에서 어색한 번역체가 과도한가
  • 안전 정책 위반 가능성이 있는가

배포 전 데이터 감사 로그

  • 데이터 소스와 라이선스 기록
  • 정제 스크립트 버전/실행 시점 기록
  • 삭제된 샘플의 삭제 사유 기록
  • 최종 데이터셋 체크섬 기록
품질 리포트는 한 번 만들고 끝내지 말고, 모델 버전마다 함께 버전 관리하세요.