[2603.28610] ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

논문 정보

날짜: 2026-03-31
카테고리: -
우선순위 점수: 1.067

핵심 요약

ResAdapt는 MLLM의 시각적 토큰 증가 문제를 해결하기 위해 인코딩 전 프레임별 해상도 예산을 동적으로 할당하는 프레임워크입니다. 경량 Allocator를 통해 각 프레임에 필요한 픽셀 양을 결정하며, 이를 비용 인식 정책 최적화(CAPO)를 통해 학습합니다. 동일한 시각적 예산 내에서 최대 16배 더 많은 프레임을 지원하며 비디오 QA 및 추론 벤치마크에서 효율성을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 고해상도 이미지와 긴 비디오 데이터를 처리할 때 연산 비용을 획기적으로 줄이면서도 추론 성능을 유지하는 효율적인 데이터 전처리 기법으로 활용 가능합니다.
권장 액션: 실험
액션 근거: 기존 MLLM 백본의 수정 없이 입력 단계의 해상도 조절만으로 성능 향상과 비용 절감을 동시에 달성했다는 점에서 실용성이 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.28610
Hugging Face Papers: https://huggingface.co/papers/2603.28610

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.26639] Make Geometry Matter for Spatial Reasoning [2603.27862] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크