DPO와 ORPO
둘 다 preference 데이터를 사용해 모델을 정렬합니다. 차이는 목적함수와 학습 안정성 특성에 있습니다.비교 요약
| 항목 | DPO | ORPO |
|---|---|---|
| 입력 데이터 | chosen/rejected 쌍 | chosen/rejected 쌍 |
| 보상모델 필요 | 필요 없음 | 필요 없음 |
| 특징 | 구현 단순, 널리 사용 | 목적함수 단순화 접근 |
| 적용 난이도 | 낮음~중간 | 중간 |
언제 DPO를 쓸까
- 팀에 정렬 학습 경험이 많지 않을 때
- 비교적 표준적인 파이프라인이 필요할 때
- 재현 가능한 베이스라인이 먼저 필요할 때
언제 ORPO를 검토할까
- DPO 실험 후 추가 개선 여지가 보일 때
- 데이터 품질은 충분한데 학습 안정성을 다르게 탐색하고 싶을 때
실험 설계 팁
- 같은 데이터, 같은 베이스 모델로 DPO/ORPO를 비교합니다
- 한 번에 한 변수만 바꿉니다
- 자동 지표 + 사람 평가를 반드시 함께 봅니다

