RLHF 개요
RLHF(Reinforcement Learning from Human Feedback)는 사람 선호를 보상 신호로 바꿔 정책을 업데이트하는 방식입니다.구성 요소
| 구성 | 역할 |
|---|---|
| SFT 모델 | 초기 정책 |
| 보상모델 (RM) | 응답 품질 점수 예측 |
| RL 알고리즘 | 정책 업데이트 |
| 선호 데이터 | 보상 학습의 근거 |
파이프라인
장점과 한계
| 항목 | 내용 |
|---|---|
| 장점 | 복잡한 선호를 정책에 반영 가능 |
| 한계 | 구현/운영 난이도가 높고 비용이 큼 |
도입 전 확인할 점
- 대규모 라벨링/학습 인프라가 있는가
- 오프라인/온라인 안전성 평가 체계가 있는가
- RL 단계의 디버깅 경험이 팀에 있는가

