Skip to main content

DPO와 ORPO

둘 다 preference 데이터를 사용해 모델을 정렬합니다. 차이는 목적함수와 학습 안정성 특성에 있습니다.

비교 요약

항목DPOORPO
입력 데이터chosen/rejected 쌍chosen/rejected 쌍
보상모델 필요필요 없음필요 없음
특징구현 단순, 널리 사용목적함수 단순화 접근
적용 난이도낮음~중간중간

언제 DPO를 쓸까

  • 팀에 정렬 학습 경험이 많지 않을 때
  • 비교적 표준적인 파이프라인이 필요할 때
  • 재현 가능한 베이스라인이 먼저 필요할 때

언제 ORPO를 검토할까

  • DPO 실험 후 추가 개선 여지가 보일 때
  • 데이터 품질은 충분한데 학습 안정성을 다르게 탐색하고 싶을 때

실험 설계 팁

  • 같은 데이터, 같은 베이스 모델로 DPO/ORPO를 비교합니다
  • 한 번에 한 변수만 바꿉니다
  • 자동 지표 + 사람 평가를 반드시 함께 봅니다
정렬 학습은 “더 친절한 오답”을 만들 수도 있습니다. 정확성 지표를 함께 관리하지 않으면 체감 품질이 오히려 떨어질 수 있습니다.