논문 정보
- 날짜:
2026-04-11 - 카테고리: -
- 우선순위 점수: 1.833
핵심 요약
Gaussian GRPO(G^2RPO)를 도입하여 다양한 시각적 작업 간의 보상 분포 차이를 정규화하고 학습 안정성을 높였습니다. 응답 길이 셰이핑과 엔트로피 셰이핑 메커니즘을 통해 세밀한 지각 능력과 다단계 추론 능력 사이의 균형을 맞추었습니다. 18개 벤치마크에서 기존 오픈소스 및 상용 모델 대비 우수한 성능을 입증하며 범용 멀티모달 모델로서의 가능성을 보여주었습니다.학습자 관점 포인트
- 우리 팀 영향: 멀티모달 강화학습 시 발생하는 태스크별 그래디언트 불균형 문제를 해결하여 모델의 추론 성능을 안정적으로 고도화할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: G^2RPO를 통한 보상 분포 정규화 방식이 멀티모달 RL 학습의 고질적인 불안정성을 해결할 수 있는 실용적인 방법론으로 판단됩니다.
원문 링크
- arXiv: https://arxiv.org/abs/2604.08539
- Hugging Face Papers: https://huggingface.co/papers/2604.08539

