[2603.24329] GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

논문 정보

날짜: 2026-03-26
카테고리: -
우선순위 점수: 2.233

핵심 요약

GameplayQA는 3D 가상 환경에서 자율 에이전트의 인지 및 추론 능력을 평가하기 위한 벤치마킹 프레임워크입니다. 멀티플레이어 게임 영상을 활용하여 자신, 타인, 환경이라는 세 가지 관점에서 시간 동기화된 고밀도 주석과 2.4K개의 진단용 질의응답 쌍을 제공합니다. 최신 멀티모달 LLM 평가 결과, 시간적 접지 및 에이전트 역할 할당 등에서 인간 수준과 큰 격차가 있음이 확인되었습니다.

학습자 관점 포인트

우리 팀 영향: 에이전트 중심의 다중 비디오 이해 및 의사결정 밀도가 높은 환경에서의 추론 능력을 정밀하게 측정할 수 있는 평가 지표로 활용 가능합니다.
권장 액션: 실험
액션 근거: 에이전트의 시각적 인지 오류와 환각 현상을 세분화하여 분석할 수 있는 데이터셋 구조를 갖추고 있어 모델 개선 실험에 유용하기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.24329
Hugging Face Papers: https://huggingface.co/papers/2603.24329

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.24440] CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents [2603.22918] EVA: Efficient Reinforcement Learning for End-to-End Video Agent

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크