RLHF(Reinforcement Learning from Human Feedback)는
사람 선호를 보상 신호로 바꿔 정책을 업데이트하는 방식입니다.
구성 요소
| 구성 | 역할 |
|---|
| SFT 모델 | 초기 정책 |
| 보상모델 (RM) | 응답 품질 점수 예측 |
| RL 알고리즘 | 정책 업데이트 |
| 선호 데이터 | 보상 학습의 근거 |
파이프라인
장점과 한계
| 항목 | 내용 |
|---|
| 장점 | 복잡한 선호를 정책에 반영 가능 |
| 한계 | 구현/운영 난이도가 높고 비용이 큼 |
도입 전 확인할 점
- 대규모 라벨링/학습 인프라가 있는가
- 오프라인/온라인 안전성 평가 체계가 있는가
- RL 단계의 디버깅 경험이 팀에 있는가
대부분의 실무 팀은 DPO/ORPO로 충분한 경우가 많습니다.
RLHF는 명확한 필요성과 운영 여력이 있을 때 도입합니다.
실무 적용 체크리스트
자주 나는 실수
- 기준 지표 없이 개선을 선언합니다.
- 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
- 롤백 조건 없이 배포해 장애 복구가 늦어집니다.
다음 문서
다음: 평가와 배포
학습 흐름을 이어서 진행합니다.
RLHF 도입 전 점검
RLHF는 인프라와 운영 비용이 크므로, DPO/ORPO로 목표 지표를 달성할 수 있는지 먼저 확인합니다.
도입 시에는 보상모델 품질 검증 체계를 별도로 준비해야 합니다.