[2604.08168] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

논문 정보

날짜: 2026-04-12
카테고리: -
우선순위 점수: 0.4

핵심 요약

ViVa는 사전 학습된 비디오 생성 모델을 활용하여 로봇 강화학습을 위한 가치 추정(Value Estimation)을 수행하는 모델입니다. 현재 관측값과 로봇의 고유 수용 감각을 입력받아 미래의 상태 변화와 스칼라 가치 값을 동시에 예측함으로써 시공간적 역학 관계를 학습합니다. 이를 통해 기존 비전-언어 모델 기반 가치 함수가 가졌던 시계열 동역학 파악의 한계를 극복하고 장기 과제 수행 능력을 향상시켰습니다.

학습자 관점 포인트

우리 팀 영향: 비디오 생성 모델의 시공간적 사전 지식을 로봇 가치 함수 학습에 활용함으로써 복잡한 조작 작업의 성공률을 높이는 새로운 방법론을 제시합니다.
권장 액션: 실험
액션 근거: 비디오 생성 모델의 동역학 이해 능력이 실제 로봇 제어 가치 추정에 미치는 유효성을 검증할 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.08168
Hugging Face Papers: https://huggingface.co/papers/2604.08168

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08120] Small Vision-Language Models are Smart Compressors for Long Video Understanding [2604.08544] SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크