논문 정보
- 날짜:
2026-03-04 - 카테고리: -
- 우선순위 점수: 0.7
핵심 요약
CoWVLA는 비디오 VAE를 통해 구조와 모션을 분리하여 학습하는 새로운 Chain-of-World 패러다임을 제안합니다. 이 모델은 초기 프레임에서 연속적인 잠재 모션 체인을 추론하고 최종 프레임을 예측함으로써 시공간적 인과 관계를 학습합니다. 최종적으로 희소 키프레임과 액션 시퀀스를 통합 디코더에서 공동 모델링하여 효율적인 로봇 제어를 수행합니다.학습자 관점 포인트
- 우리 팀 영향: 비디오 생성 모델의 시공간 추론 능력을 로봇 액션 제어에 효율적으로 결합하여 데이터 효율성을 높일 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 기존 월드 모델의 배경 재구성 낭비를 줄이면서도 잠재 모션을 통한 시공간 추론이 가능하여 로봇 제어 성능 향상이 기대됩니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.03195
- Hugging Face Papers: https://huggingface.co/papers/2603.03195

