Skip to main content
RLHF(Reinforcement Learning from Human Feedback)는 사람 선호를 보상 신호로 바꿔 정책을 업데이트하는 방식입니다.

구성 요소

구성역할
SFT 모델초기 정책
보상모델 (RM)응답 품질 점수 예측
RL 알고리즘정책 업데이트
선호 데이터보상 학습의 근거

파이프라인

장점과 한계

항목내용
장점복잡한 선호를 정책에 반영 가능
한계구현/운영 난이도가 높고 비용이 큼

도입 전 확인할 점

  • 대규모 라벨링/학습 인프라가 있는가
  • 오프라인/온라인 안전성 평가 체계가 있는가
  • RL 단계의 디버깅 경험이 팀에 있는가
대부분의 실무 팀은 DPO/ORPO로 충분한 경우가 많습니다. RLHF는 명확한 필요성과 운영 여력이 있을 때 도입합니다.

실무 적용 체크리스트

  • 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
  • 측정 지표와 실패 임계값을 숫자로 정의했습니다.
  • 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
  • 팀 내 공유 문서(런북/가이드)에 반영했습니다.

자주 나는 실수

  1. 기준 지표 없이 개선을 선언합니다.
  2. 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
  3. 롤백 조건 없이 배포해 장애 복구가 늦어집니다.

다음 문서

다음: 평가와 배포

학습 흐름을 이어서 진행합니다.

RLHF 도입 전 점검

RLHF는 인프라와 운영 비용이 크므로, DPO/ORPO로 목표 지표를 달성할 수 있는지 먼저 확인합니다. 도입 시에는 보상모델 품질 검증 체계를 별도로 준비해야 합니다.