[2604.07966] Lighting-grounded Video Generation with Renderer-based Agent Reasoning

논문 정보

날짜: 2026-04-11
카테고리: -
우선순위 점수: 1.367

핵심 요약

LiVER는 3D 렌더러 기반의 에이전트 추론을 통해 조명, 레이아웃, 카메라 궤적을 정밀하게 제어하는 비디오 생성 프레임워크입니다. 통합된 3D 표현에서 추출된 제어 신호를 비디오 확산 모델에 결합하여 장면 요소 간의 얽힘 문제를 해결했습니다. 사용자의 고수준 지시어를 3D 제어 신호로 자동 변환하는 씬 에이전트를 도입하여 사용 편의성을 높였습니다.

학습자 관점 포인트

우리 팀 영향: 3D 렌더링 자산을 활용한 정밀한 비디오 제어 기술은 가상 프로덕션 및 고품질 콘텐츠 제작 파이프라인의 효율성을 크게 개선할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 확산 모델의 한계인 물리적 제어력 부족을 3D 렌더러와 에이전트 추론으로 해결한 접근 방식이 실무 적용 가능성이 높기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.07966
Hugging Face Papers: https://huggingface.co/papers/2604.07966

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.07429] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents [2604.08340] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크