[2602.24289] Mode Seeking meets Mean Seeking for Fast Long Video Generation

논문 정보

날짜: 2026-03-02
카테고리: -
우선순위 점수: 0.633

핵심 요약

부족한 장편 비디오 데이터를 극복하기 위해 로컬 디테일과 장기적 일관성을 분리하여 학습하는 Decoupled Diffusion Transformer를 제안합니다. 글로벌 Flow Matching 헤드는 서사 구조를 학습하고, 로컬 Distribution Matching 헤드는 짧은 비디오 모델의 지식을 전이받아 고화질을 유지합니다. 이를 통해 적은 단계의 추론만으로도 일관성 있는 분 단위의 긴 비디오 생성이 가능합니다.

학습자 관점 포인트

우리 팀 영향: 장편 비디오 데이터 부족 문제를 해결하면서도 기존 단편 모델의 고화질 성능을 유지할 수 있는 효율적인 학습 프레임워크를 제공합니다.
권장 액션: 실험
액션 근거: 데이터 효율적인 장편 비디오 생성 기법으로서 기존 단편 생성 모델과의 결합 가능성을 검증할 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2602.24289
Hugging Face Papers: https://huggingface.co/papers/2602.24289

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2602.21877] How to Take a Memorable Picture? Empowering Users with Actionable Feedback [2602.23047] CL4SE: A Context Learning Benchmark For Software Engineering Tasks

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크