비교 요약
| 항목 | DPO | ORPO |
|---|---|---|
| 입력 데이터 | chosen/rejected 쌍 | chosen/rejected 쌍 |
| 보상모델 필요 | 필요 없음 | 필요 없음 |
| 특징 | 구현 단순, 널리 사용 | 목적함수 단순화 접근 |
| 적용 난이도 | 낮음~중간 | 중간 |
언제 DPO를 쓸까
- 팀에 정렬 학습 경험이 많지 않을 때
- 비교적 표준적인 파이프라인이 필요할 때
- 재현 가능한 베이스라인이 먼저 필요할 때
언제 ORPO를 검토할까
- DPO 실험 후 추가 개선 여지가 보일 때
- 데이터 품질은 충분한데 학습 안정성을 다르게 탐색하고 싶을 때
실험 설계 팁
- 같은 데이터, 같은 베이스 모델로 DPO/ORPO를 비교합니다
- 한 번에 한 변수만 바꿉니다
- 자동 지표 + 사람 평가를 반드시 함께 봅니다
실무 적용 체크리스트
- 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
- 측정 지표와 실패 임계값을 숫자로 정의했습니다.
- 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
- 팀 내 공유 문서(런북/가이드)에 반영했습니다.
자주 나는 실수
- 기준 지표 없이 개선을 선언합니다.
- 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
- 롤백 조건 없이 배포해 장애 복구가 늦어집니다.
다음 문서
다음: RLHF 개요
학습 흐름을 이어서 진행합니다.

