[2604.08120] Small Vision-Language Models are Smart Compressors for Long Video Understanding

논문 정보

날짜: 2026-04-12
카테고리: -
우선순위 점수: 0.433

핵심 요약

긴 비디오 이해를 위해 소형 시각-언어 모델(SVLM)을 활용하여 쿼리 기반으로 토큰을 압축하는 Tempo 프레임워크를 제안합니다. Adaptive Token Allocation(ATA)을 통해 중요한 장면에는 많은 대역폭을 할당하고 중복된 배경은 최소화하여 효율적인 비디오 표현을 생성합니다. 실험 결과 8K 토큰 제한 내에서 GPT-4o 및 Gemini 1.5 Pro보다 높은 성능을 기록하며 긴 비디오 이해의 효율성을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 제한된 컨텍스트 윈도우 내에서 긴 비디오 데이터를 효율적으로 처리하기 위한 동적 토큰 할당 및 압축 기법을 우리 팀의 비디오 분석 파이프라인에 적용할 수 있습니다.
권장 액션: 실험
액션 근거: 기존의 균등 샘플링 방식보다 효율적인 데이터 압축이 가능하며, 상용 모델 대비 높은 성능을 보여 실제 서비스 적용 가능성을 확인할 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.08120
Hugging Face Papers: https://huggingface.co/papers/2604.08120

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08526] FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On [2604.08168] ViVa: A Video-Generative Value Model for Robot Reinforcement Learning

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크