DPO와 ORPO - 배움 에이아이

비교 요약
언제 DPO를 쓸까
언제 ORPO를 검토할까
실험 설계 팁
실무 적용 체크리스트
자주 나는 실수
다음 문서

둘 다 preference 데이터를 사용해 모델을 정렬합니다. 차이는 목적함수와 학습 안정성 특성에 있습니다.

비교 요약

항목	DPO	ORPO
입력 데이터	chosen/rejected 쌍	chosen/rejected 쌍
보상모델 필요	필요 없음	필요 없음
특징	구현 단순, 널리 사용	목적함수 단순화 접근
적용 난이도	낮음~중간	중간

언제 DPO를 쓸까

팀에 정렬 학습 경험이 많지 않을 때
비교적 표준적인 파이프라인이 필요할 때
재현 가능한 베이스라인이 먼저 필요할 때

언제 ORPO를 검토할까

DPO 실험 후 추가 개선 여지가 보일 때
데이터 품질은 충분한데 학습 안정성을 다르게 탐색하고 싶을 때

실험 설계 팁

같은 데이터, 같은 베이스 모델로 DPO/ORPO를 비교합니다
한 번에 한 변수만 바꿉니다
자동 지표 + 사람 평가를 반드시 함께 봅니다

정렬 학습은 “더 친절한 오답”을 만들 수도 있습니다. 정확성 지표를 함께 관리하지 않으면 체감 품질이 오히려 떨어질 수 있습니다.

실무 적용 체크리스트

이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
측정 지표와 실패 임계값을 숫자로 정의했습니다.
변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
팀 내 공유 문서(런북/가이드)에 반영했습니다.

자주 나는 실수

기준 지표 없이 개선을 선언합니다.
한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
롤백 조건 없이 배포해 장애 복구가 늦어집니다.

다음 문서

다음: RLHF 개요

학습 흐름을 이어서 진행합니다.

정렬 (Alignment)RLHF 개요