[2603.01236] AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

논문 정보

날짜: 2026-03-05
카테고리: -
우선순위 점수: 0.167

핵심 요약

본 논문은 대형 시각-언어 모델(LVLM)의 연산 효율화를 위해 어텐션 기반과 다양성 기반 토큰 프루닝 기법을 심층 분석했습니다. 분석 결과, 다양성 기반 방식은 의도보다 낮은 특징 다양성을 보이며 환각 현상을 유발할 가능성이 높고, 어텐션 기반 방식은 단순한 이미지에서 더 효과적임을 확인했습니다. 이를 바탕으로 이미지 복잡도에 따라 프루닝 전략을 조정하는 적응형 메커니즘인 AgilePruner를 제안합니다.

학습자 관점 포인트

우리 팀 영향: 이미지 특성에 따른 적응형 프루닝 전략을 통해 LVLM의 추론 속도를 개선하면서도 환각 현상을 억제하는 최적화 기법을 확보할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 프루닝 방식의 한계인 환각 문제를 정량적으로 분석하고 이미지 복잡도에 따른 성능 개선 가능성을 제시했으므로 실제 모델 적용 시 효율성을 검증할 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.01236
Hugging Face Papers: https://huggingface.co/papers/2603.01236

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.04291] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video [2603.03985] RIVER: A Real-Time Interaction Benchmark for Video LLMs

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크