데이터 품질 점검 - 배움 에이아이

품질 점검이 빠지면 파인튜닝이 아니라 노이즈 증폭이 됩니다. 학습 전에 자동 검증을 먼저 통과시키세요.

필수 점검 항목

항목	목표 기준	점검 방법
스키마 유효성	100% 통과	JSON Schema/Pydantic 검증
중복/유사중복	5% 이하	해시 + 임베딩 유사도 검사
라벨 일관성	높은 합의율	샘플 재라벨링 비교
금칙어/PII	0건	정규식 + 엔티티 탐지
길이 분포	편향 최소화	토큰 분포 히스토그램 확인

권장 파이프라인

샘플 수동 검수

자동화만으로 충분하지 않습니다. 최소 100개 샘플은 사람이 직접 읽고 아래를 확인합니다.

요청과 응답이 의미적으로 맞는가
과도한 장문/무의미한 반복이 있는가
한국어 문맥에서 어색한 번역체가 과도한가
안전 정책 위반 가능성이 있는가

배포 전 데이터 감사 로그

데이터 소스와 라이선스 기록
정제 스크립트 버전/실행 시점 기록
삭제된 샘플의 삭제 사유 기록
최종 데이터셋 체크섬 기록

품질 리포트는 한 번 만들고 끝내지 말고, 모델 버전마다 함께 버전 관리합니다.

실무 적용 체크리스트

이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
측정 지표와 실패 임계값을 숫자로 정의했습니다.
변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
팀 내 공유 문서(런북/가이드)에 반영했습니다.

자주 나는 실수

기준 지표 없이 개선을 선언합니다.
한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
롤백 조건 없이 배포해 장애 복구가 늦어집니다.

다음 문서

다음: SFT와 PEFT

학습 흐름을 이어서 진행합니다.

Preference 데이터 설계 SFT와 PEFT