Preference 데이터 설계
Preference 데이터는 하나의 질문에 대해 두 응답을 비교하고,
어느 쪽이 더 좋은지 라벨링한 데이터입니다.
기본 스키마
{
"id": "pref_0001",
"prompt": "장애 공지문 초안을 작성해줘",
"chosen": "서비스 영향 범위와 복구 ETA를 포함한 명확한 공지",
"rejected": "근거 없이 낙관적인 문장 위주 공지",
"criteria": ["정확성", "명확성", "행동 가능성"],
"metadata": {"domain": "ops", "language": "ko"}
}
라벨링 기준 예시
| 기준 | 설명 |
|---|
| 정확성 | 사실과 수치가 맞는가 |
| 충실성 | 요청한 형식과 제약을 지켰는가 |
| 안전성 | 금지된 조언/민감정보 유출이 없는가 |
| 실용성 | 사용자가 바로 행동 가능한가 |
라벨링 프로세스
기준 정의
평가 기준과 우선순위를 문서화합니다. 기준 간 충돌 시 우선순위도 명시합니다.
파일럿 라벨링
소량 샘플로 라벨러 간 일치도를 먼저 확인합니다.
본 라벨링
난이도/도메인/언어를 균형 있게 배치해 편향을 줄입니다.
합의와 정제
불일치 샘플을 별도 검토해 최종 라벨로 확정합니다.
편향을 줄이는 방법
- 항상 같은 생성 모델 조합으로 후보를 만들지 않습니다
- 한 라벨러가 특정 도메인만 계속 맡지 않도록 순환합니다
- 너무 쉬운 비교쌍(명백한 정답/오답) 비율을 제한합니다
Preference 데이터는 라벨러 선호를 강하게 반영합니다.
라벨링 가이드가 불명확하면 모델도 일관성을 잃습니다.