논문 정보
- 날짜:
2026-03-31
- 카테고리: -
- 우선순위 점수: 1.067
핵심 요약
ResAdapt는 MLLM의 시각적 토큰 증가 문제를 해결하기 위해 인코딩 전 프레임별 해상도 예산을 동적으로 할당하는 프레임워크입니다. 경량 Allocator를 통해 각 프레임에 필요한 픽셀 양을 결정하며, 이를 비용 인식 정책 최적화(CAPO)를 통해 학습합니다. 동일한 시각적 예산 내에서 최대 16배 더 많은 프레임을 지원하며 비디오 QA 및 추론 벤치마크에서 효율성을 입증했습니다.
학습자 관점 포인트
- 우리 팀 영향: 고해상도 이미지와 긴 비디오 데이터를 처리할 때 연산 비용을 획기적으로 줄이면서도 추론 성능을 유지하는 효율적인 데이터 전처리 기법으로 활용 가능합니다.
- 권장 액션: 실험
- 액션 근거: 기존 MLLM 백본의 수정 없이 입력 단계의 해상도 조절만으로 성능 향상과 비용 절감을 동시에 달성했다는 점에서 실용성이 높습니다.
원문 링크
학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.