Skip to main content

정렬 (Alignment)

SFT가 “기본 실력”을 맞추는 단계라면, 정렬은 “선호와 정책”을 맞추는 단계입니다.

무엇을 정렬하는가

  • 더 선호되는 답변 스타일
  • 안전 정책 준수 행동
  • 장문/단문, 근거 제시 방식 같은 응답 성향

학습 경로

실무 적용 순서

  1. SFT 안정화
  2. 선호 데이터 수집
  3. DPO/ORPO 소규모 실험
  4. 안전성/일관성 평가
  5. 온라인 검증
대부분의 팀은 RLHF 전체 스택보다 DPO/ORPO부터 시작하는 편이 운영 비용이 낮습니다.