[2604.08120] Small Vision-Language Models are Smart Compressors for Long Video Understanding

논문 정보

날짜: 2026-04-10
카테고리: -
우선순위 점수: 0.067

핵심 요약

긴 비디오 이해를 위해 소형 시각-언어 모델(SVLM)을 활용하여 쿼리 기반으로 데이터를 압축하는 Tempo 프레임워크를 제안합니다. Adaptive Token Allocation(ATA)을 통해 중요한 장면에는 많은 대역폭을 할당하고 중복된 배경은 최소화하여 효율적인 토큰 관리를 수행합니다. 실험 결과, 8K 토큰 제한 내에서 GPT-4o 및 Gemini 1.5 Pro보다 우수한 성능을 기록하며 긴 비디오 이해의 효율성을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 제한된 컨텍스트 윈도우 내에서 긴 비디오의 핵심 정보를 유지하는 효율적인 압축 기술을 우리 팀의 비디오 분석 파이프라인에 적용할 수 있습니다.
권장 액션: 실험
액션 근거: 상용 모델보다 적은 자원으로 긴 비디오 이해 성능을 높인 결과가 고무적이며, 제안된 ATA 알고리즘의 실제 효율성을 검증할 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.08120
Hugging Face Papers: https://huggingface.co/papers/2604.08120

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08362] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces [2601.20524] AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크