[2603.02024] MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

논문 정보

날짜: 2026-03-03
카테고리: -
우선순위 점수: 2.333

핵심 요약

MMR-Life는 실생활 시나리오에서 멀티모달 대형 언어 모델(MLLM)의 다중 이미지 추론 능력을 평가하기 위한 벤치마크입니다. 19,108개의 실생활 이미지와 7가지 추론 유형을 포함하는 2,646개의 객관식 문항으로 구성되어 있습니다. GPT-5를 포함한 최신 모델들도 약 58%의 정확도에 머물러 모델들의 실생활 추론 성능에 한계가 있음을 보여줍니다.

학습자 관점 포인트

우리 팀 영향: 실생활 기반의 다중 이미지 추론 성능을 정밀하게 측정하고 모델의 추론 패러다임을 분석하는 벤치마크로 활용할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 도메인 특화 벤치마크와 달리 범용적인 실생활 추론 능력을 측정하므로 현재 개발 중인 모델의 성능 검증에 적합합니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.02024
Hugging Face Papers: https://huggingface.co/papers/2603.02024

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.01562] RubricBench: Aligning Model-Generated Rubrics with Human Standards [2602.23866] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크