Skip to main content

RLHF 개요

RLHF(Reinforcement Learning from Human Feedback)는 사람 선호를 보상 신호로 바꿔 정책을 업데이트하는 방식입니다.

구성 요소

구성역할
SFT 모델초기 정책
보상모델 (RM)응답 품질 점수 예측
RL 알고리즘정책 업데이트
선호 데이터보상 학습의 근거

파이프라인

장점과 한계

항목내용
장점복잡한 선호를 정책에 반영 가능
한계구현/운영 난이도가 높고 비용이 큼

도입 전 확인할 점

  • 대규모 라벨링/학습 인프라가 있는가
  • 오프라인/온라인 안전성 평가 체계가 있는가
  • RL 단계의 디버깅 경험이 팀에 있는가
대부분의 실무 팀은 DPO/ORPO로 충분한 경우가 많습니다. RLHF는 명확한 필요성과 운영 여력이 있을 때 도입하세요.