정렬 (Alignment)
무엇을 정렬하는가
학습 경로
실무 적용 순서

정렬 (Alignment)

SFT가 “기본 실력”을 맞추는 단계라면, 정렬은 “선호와 정책”을 맞추는 단계입니다.

무엇을 정렬하는가

더 선호되는 답변 스타일
안전 정책 준수 행동
장문/단문, 근거 제시 방식 같은 응답 성향

학습 경로

DPO와 ORPO

보상모델 없이 선호 데이터를 직접 학습하는 방식 비교

RLHF 개요

전통적인 보상모델 기반 정렬 파이프라인 요약

실무 적용 순서

SFT 안정화
선호 데이터 수집
DPO/ORPO 소규모 실험
안전성/일관성 평가
온라인 검증

대부분의 팀은 RLHF 전체 스택보다 DPO/ORPO부터 시작하는 편이 운영 비용이 낮습니다.

Unsloth + TRL 워크플로우 DPO와 ORPO