Skip to main content
SFT가 “기본 실력”을 맞추는 단계라면, 정렬은 “선호와 정책”을 맞추는 단계입니다.

무엇을 정렬하는가

  • 더 선호되는 답변 스타일
  • 안전 정책 준수 행동
  • 장문/단문, 근거 제시 방식 같은 응답 성향

학습 경로

DPO와 ORPO

보상모델 없이 선호 데이터를 직접 학습하는 방식 비교

RLHF 개요

전통적인 보상모델 기반 정렬 파이프라인 요약

실무 적용 순서

  1. SFT 안정화
  2. 선호 데이터 수집
  3. DPO/ORPO 소규모 실험
  4. 안전성/일관성 평가
  5. 온라인 검증
대부분의 팀은 RLHF 전체 스택보다 DPO/ORPO부터 시작하는 편이 운영 비용이 낮습니다.

학습 완료 기준

  • 이 섹션의 핵심 개념을 팀 문서로 설명할 수 있습니다.
  • 최소 1개 운영 시나리오를 직접 실행하고 결과를 기록할 수 있습니다.
  • 실패 기준과 롤백 기준을 문서로 정의할 수 있습니다.
  • 다음 섹션으로 넘어가기 전 필수 체크리스트를 완료할 수 있습니다.

실무 적용 체크리스트

  • 현재 운영 중인 모델/프롬프트 버전을 식별할 수 있습니다.
  • 품질·비용·지연 중 우선 KPI를 1순위로 정했습니다.
  • 실험과 운영 환경(dev/stage/prod) 경계를 분리했습니다.
  • 주간 리뷰 주기와 담당자를 지정했습니다.

다음 문서

다음: DPO와 ORPO

학습 흐름을 이어서 진행합니다.

정렬 실험 운영 팁

정렬 실험은 정확성 지표와 선호 지표를 반드시 함께 봐야 합니다. 선호 점수만 높고 사실성이 떨어지는 경우를 별도 경고 규칙으로 관리합니다.