[2603.19466] ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

논문 정보

날짜: 2026-03-23
카테고리: -
우선순위 점수: 0.767

핵심 요약

ProactiveBench는 멀티모달 대형 언어 모델(MLLM)이 가려진 물체 식별이나 이미지 품질 개선을 위해 사용자에게 개입을 요청하는 ‘능동성’을 평가하는 벤치마크입니다. 22개의 모델을 테스트한 결과, 모델의 크기나 성능이 능동성과 비례하지 않으며 대화 이력이나 인컨텍스트 학습이 오히려 부정적인 영향을 미치는 것으로 나타났습니다. 강화 학습 기반의 미세 조정을 통해 능동적 행동이 학습 가능하며 미학습 시나리오까지 일반화될 수 있음을 확인했습니다.

학습자 관점 포인트

우리 팀 영향: 사용자 협업이 필요한 멀티모달 서비스 개발 시 모델의 수동적 응답 한계를 극복하기 위한 학습 전략 수립에 기여할 수 있습니다.
권장 액션: 실험
액션 근거: 강화 학습을 통한 능동성 개선 가능성이 확인되었으므로, 서비스 시나리오에서 모델의 선제적 질문 능력을 강화하는 실험이 가치가 있다고 판단됩니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.19466
Hugging Face Papers: https://huggingface.co/papers/2603.19466

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.19714] LoopRPT: Reinforcement Pre-Training for Looped Language Models [2603.19005] AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크