필수 점검 항목
| 항목 | 목표 기준 | 점검 방법 |
|---|---|---|
| 스키마 유효성 | 100% 통과 | JSON Schema/Pydantic 검증 |
| 중복/유사중복 | 5% 이하 | 해시 + 임베딩 유사도 검사 |
| 라벨 일관성 | 높은 합의율 | 샘플 재라벨링 비교 |
| 금칙어/PII | 0건 | 정규식 + 엔티티 탐지 |
| 길이 분포 | 편향 최소화 | 토큰 분포 히스토그램 확인 |
권장 파이프라인
샘플 수동 검수
자동화만으로 충분하지 않습니다. 최소 100개 샘플은 사람이 직접 읽고 아래를 확인합니다.- 요청과 응답이 의미적으로 맞는가
- 과도한 장문/무의미한 반복이 있는가
- 한국어 문맥에서 어색한 번역체가 과도한가
- 안전 정책 위반 가능성이 있는가
배포 전 데이터 감사 로그
- 데이터 소스와 라이선스 기록
- 정제 스크립트 버전/실행 시점 기록
- 삭제된 샘플의 삭제 사유 기록
- 최종 데이터셋 체크섬 기록
실무 적용 체크리스트
- 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
- 측정 지표와 실패 임계값을 숫자로 정의했습니다.
- 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
- 팀 내 공유 문서(런북/가이드)에 반영했습니다.
자주 나는 실수
- 기준 지표 없이 개선을 선언합니다.
- 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
- 롤백 조건 없이 배포해 장애 복구가 늦어집니다.
다음 문서
다음: SFT와 PEFT
학습 흐름을 이어서 진행합니다.

