논문 정보
- 날짜:
2026-03-03 - 카테고리: -
- 우선순위 점수: 2.333
핵심 요약
MMR-Life는 실생활 시나리오에서 멀티모달 대형 언어 모델(MLLM)의 다중 이미지 추론 능력을 평가하기 위한 벤치마크입니다. 19,108개의 실생활 이미지와 7가지 추론 유형을 포함하는 2,646개의 객관식 문항으로 구성되어 있습니다. GPT-5를 포함한 최신 모델들도 약 58%의 정확도에 머물러 모델들의 실생활 추론 성능에 한계가 있음을 보여줍니다.학습자 관점 포인트
- 우리 팀 영향: 실생활 기반의 다중 이미지 추론 성능을 정밀하게 측정하고 모델의 추론 패러다임을 분석하는 벤치마크로 활용할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 기존 도메인 특화 벤치마크와 달리 범용적인 실생활 추론 능력을 측정하므로 현재 개발 중인 모델의 성능 검증에 적합합니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.02024
- Hugging Face Papers: https://huggingface.co/papers/2603.02024

