논문 정보
- 날짜:
2026-03-25 - 카테고리: -
- 우선순위 점수: 0.4
핵심 요약
AutoGaze는 비디오의 시공간적 중복성을 제거하기 위해 ViT 또는 MLLM 처리 전 최소한의 멀티스케일 패치만을 선택하는 경량 모듈입니다. 자기회귀 방식과 강화학습을 통해 토큰 수를 4배에서 100배까지 줄여 4K 해상도의 1,000프레임 비디오 처리를 가능하게 합니다. VideoMME 등 주요 벤치마크에서 우수한 성능을 보였으며, 고해상도 장기 비디오 QA를 위한 HLVid 데이터셋을 함께 제안했습니다.학습자 관점 포인트
- 우리 팀 영향: 고해상도 장기 비디오 처리 시 발생하는 연산 비용 문제를 획기적으로 개선하여 효율적인 멀티모달 모델 서비스 구축에 기여할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 토큰 수를 최대 100배까지 절감하면서도 성능 저하 없이 4K 비디오를 처리할 수 있다는 점에서 실무 적용 가치가 높습니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.12254
- Hugging Face Papers: https://huggingface.co/papers/2603.12254

