[2604.07966] Lighting-grounded Video Generation with Renderer-based Agent Reasoning

논문 정보

날짜: 2026-04-10
카테고리: -
우선순위 점수: 1.367

핵심 요약

LiVER는 3D 렌더러 기반의 에이전트 추론을 통해 조명, 레이아웃, 카메라 궤적을 정밀하게 제어하는 비디오 생성 프레임워크입니다. 통합된 3D 표현에서 추출된 제어 신호를 비디오 확산 모델에 결합하여 장면 요소 간의 얽힘 문제를 해결했습니다. 사용자의 고수준 지시를 3D 제어 신호로 자동 변환하는 씬 에이전트를 포함하여 사용 편의성을 높였습니다.

학습자 관점 포인트

우리 팀 영향: 3D 렌더링 자산과 확산 모델을 결합하여 물리적으로 일관된 조명 및 구도 제어가 가능한 비디오 생성 파이프라인 구축에 기여할 수 있습니다.
권장 액션: 실험
액션 근거: 에이전트를 활용한 3D 제어 신호 생성 방식이 기존의 단순 텍스트 기반 제어보다 정밀한 비디오 편집 가능성을 보여주기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.07966
Hugging Face Papers: https://huggingface.co/papers/2604.07966

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.07296] OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence [2604.08516] MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크