논문 정보
- 날짜:
2026-03-04 - 카테고리: -
- 우선순위 점수: 0.633
핵심 요약
비디오 대규모 언어 모델(VLLM)의 효율성을 높이기 위해 로컬 및 글로벌 컨텍스트를 최적화하는 토큰 축소 기법인 AOT를 제안합니다. 이 방법은 프레임 내외의 중요 정보를 앵커 토큰으로 설정하고 최적 운송(Optimal Transport) 알고리즘을 통해 중복된 토큰의 정보를 통합합니다. 별도의 추가 학습 없이도 시공간적 중복을 제거하여 연산 효율을 높이면서 비디오 이해 성능을 유지합니다.학습자 관점 포인트
- 우리 팀 영향: 추가 학습 없이 비디오 LLM의 추론 속도를 개선하고 긴 비디오 처리 시 발생하는 연산 비용 문제를 완화할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: Training-free 방식이므로 기존 모델에 즉시 적용하여 토큰 압축 효율과 성능 유지 여부를 검증하기에 적합합니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.01400
- Hugging Face Papers: https://huggingface.co/papers/2603.01400

