Skip to main content

논문 정보

  • 날짜: 2026-03-24
  • 카테고리: -
  • 우선순위 점수: 0.867

핵심 요약

비디오 생성 모델의 사후 학습 정렬 시 발생하는 탐색 노이즈 문제를 해결하기 위해 데이터 매니폴드 제약 조건을 활용한 SAGE-GRPO를 제안합니다. 마이크로 수준에서는 곡률 보정 SDE와 그래디언트 평준화를 적용하고, 매크로 수준에서는 이중 신뢰 영역과 주기적 앵커를 통해 샘플링 품질을 유지합니다. HunyuanVideo 1.5 실험 결과, 기존 FlowGRPO 대비 보상 최적화와 비디오 품질 지표에서 일관된 성능 향상을 입증했습니다.

학습자 관점 포인트

  • 우리 팀 영향: 비디오 생성 모델의 RLHF 과정에서 발생하는 불안정성을 매니폴드 제약으로 완화하여 고품질의 비디오 정렬 학습 효율을 높일 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 기존 비디오 GRPO의 불안정성 문제를 해결하는 구체적인 수치적 제약 방법론을 제시하고 있으며 오픈소스 모델에서의 성능 향상이 확인되었습니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.