기본 스키마
라벨링 기준 예시
| 기준 | 설명 |
|---|---|
| 정확성 | 사실과 수치가 맞는가 |
| 충실성 | 요청한 형식과 제약을 지켰는가 |
| 안전성 | 금지된 조언/민감정보 유출이 없는가 |
| 실용성 | 사용자가 바로 행동 가능한가 |
라벨링 프로세스
편향을 줄이는 방법
- 항상 같은 생성 모델 조합으로 후보를 만들지 않습니다
- 한 라벨러가 특정 도메인만 계속 맡지 않도록 순환합니다
- 너무 쉬운 비교쌍(명백한 정답/오답) 비율을 제한합니다
실무 적용 체크리스트
- 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
- 측정 지표와 실패 임계값을 숫자로 정의했습니다.
- 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
- 팀 내 공유 문서(런북/가이드)에 반영했습니다.
자주 나는 실수
- 기준 지표 없이 개선을 선언합니다.
- 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
- 롤백 조건 없이 배포해 장애 복구가 늦어집니다.
다음 문서
다음: 데이터 품질 점검
학습 흐름을 이어서 진행합니다.

