[2604.06916] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

핵심 요약

확산 모델의 강화학습 기반 사후 학습에서 롤아웃 규모를 키울 때 발생하는 연산 부담을 줄이기 위해 FP4 양자화를 도입한 Sol-RL 프레임워크를 제안합니다. FP4로 대량의 후보군을 탐색한 뒤 고대조 부분집합을 BF16으로 재생성하여 최적화함으로써 효율성과 학습 무결성을 동시에 확보했습니다. FLUX.1 및 SD3.5-L 모델 실험 결과, 학습 수렴 속도를 최대 4.64배 가속하면서도 우수한 정렬 성능을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 대규모 확산 모델의 인간 선호도 정렬 학습 시 연산 자원을 절약하면서도 더 많은 샘플을 탐색할 수 있는 효율적인 파이프라인 구축에 기여할 수 있습니다.

권장 액션: 실험

액션 근거: FP4 탐색과 BF16 최적화를 분리하여 성능 저하 없이 학습 속도를 4배 이상 높였다는 수치가 구체적이므로 실제 적용 가능성을 검증할 가치가 있습니다.

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.06916] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크