[2603.12254] Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

논문 정보

날짜: 2026-03-25
카테고리: -
우선순위 점수: 0.4

핵심 요약

AutoGaze는 비디오의 시공간적 중복성을 제거하기 위해 ViT 또는 MLLM 처리 전 최소한의 멀티스케일 패치만을 선택하는 경량 모듈입니다. 자기회귀 방식과 강화학습을 통해 토큰 수를 4배에서 100배까지 줄여 4K 해상도의 1,000프레임 비디오 처리를 가능하게 합니다. VideoMME 등 주요 벤치마크에서 우수한 성능을 보였으며, 고해상도 장기 비디오 QA를 위한 HLVid 데이터셋을 함께 제안했습니다.

학습자 관점 포인트

우리 팀 영향: 고해상도 장기 비디오 처리 시 발생하는 연산 비용 문제를 획기적으로 개선하여 효율적인 멀티모달 모델 서비스 구축에 기여할 수 있습니다.
권장 액션: 실험
액션 근거: 토큰 수를 최대 100배까지 절감하면서도 성능 저하 없이 4K 비디오를 처리할 수 있다는 점에서 실무 적용 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.12254
Hugging Face Papers: https://huggingface.co/papers/2603.12254

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.22350] Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates [2603.22327] AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크