[2604.11804] OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation

논문 정보

날짜: 2026-04-14
카테고리: -
우선순위 점수: 2.233

핵심 요약

OmniShow는 텍스트, 이미지, 오디오, 포즈 등 다중 모달 조건을 통합하여 고품질의 인간-객체 상호작용(HOI) 비디오를 생성하는 프레임워크입니다. 효율적인 조건 주입을 위한 Unified Channel-wise Conditioning과 정밀한 시청각 동기화를 위한 Gated Local-Context Attention 기술을 도입했습니다. 또한 데이터 부족 문제를 해결하기 위해 분리 후 결합 학습 전략을 제안하고 전용 벤치마크인 HOIVG-Bench를 구축했습니다.

학습자 관점 포인트

우리 팀 영향: 다양한 입력 조건을 동시에 처리하는 HOI 비디오 생성 기술은 이커머스 및 콘텐츠 제작 자동화 효율을 크게 높일 수 있습니다.
권장 액션: 실험
액션 근거: 멀티모달 조건을 통합 제어하는 구조와 모델 병합을 통한 학습 전략이 실무 적용 가능성이 높다고 판단됩니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.11804
Hugging Face Papers: https://huggingface.co/papers/2604.11804

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.10949] Pseudo-Unification: Entropy Probing Reveals Divergent Information Patterns in Unified Multimodal Models [2604.11641] CodeTracer: Towards Traceable Agent States

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크