논문 정보
- 날짜:
2026-04-10 - 카테고리: -
- 우선순위 점수: 1.367
핵심 요약
LiVER는 3D 렌더러 기반의 에이전트 추론을 통해 조명, 레이아웃, 카메라 궤적을 정밀하게 제어하는 비디오 생성 프레임워크입니다. 통합된 3D 표현에서 추출된 제어 신호를 비디오 확산 모델에 결합하여 장면 요소 간의 얽힘 문제를 해결했습니다. 사용자의 고수준 지시를 3D 제어 신호로 자동 변환하는 씬 에이전트를 포함하여 사용 편의성을 높였습니다.학습자 관점 포인트
- 우리 팀 영향: 3D 렌더링 자산과 확산 모델을 결합하여 물리적으로 일관된 조명 및 구도 제어가 가능한 비디오 생성 파이프라인 구축에 기여할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 에이전트를 활용한 3D 제어 신호 생성 방식이 기존의 단순 텍스트 기반 제어보다 정밀한 비디오 편집 가능성을 보여주기 때문입니다.
원문 링크
- arXiv: https://arxiv.org/abs/2604.07966
- Hugging Face Papers: https://huggingface.co/papers/2604.07966

