[2603.03825] From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

논문 정보

날짜: 2026-03-10
카테고리: -
우선순위 점수: 0.867

핵심 요약

멀티모달 추론 모델의 콜드 스타트 단계에서 시각적 토큰에 대한 주의 집중도(VAS)가 성능과 높은 상관관계(r=0.9616)를 가짐을 발견했습니다. 기존 멀티모달 학습이 시각 정보에 충분히 집중하지 못하는 ‘게으른 주의 집중’ 현상을 해결하기 위해 AVAR 프레임워크를 제안합니다. AVAR는 시각 앵커링 데이터 합성 및 보상 설계를 통해 Qwen2.5-VL-7B 모델에서 평균 7.0%의 성능 향상을 달성했습니다.

학습자 관점 포인트

우리 팀 영향: 멀티모달 모델 학습 시 텍스트 위주의 학습보다 시각적 토큰에 대한 주의력을 강제하는 데이터 구성과 목적 함수가 추론 성능 향상에 필수적임을 시사합니다.
권장 액션: 실험
액션 근거: 추가 학습 없이 추론 시점의 어텐션 조정만으로도 성능 향상이 가능하다는 점과 제안된 AVAR 프레임워크의 범용적인 성능 향상 폭이 크기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.03825
Hugging Face Papers: https://huggingface.co/papers/2603.03825

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.08013] PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents [2603.08703] HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크