[2604.07429] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

논문 정보

날짜: 2026-04-10
카테고리: -
우선순위 점수: 1.3

핵심 요약

GameWorld는 MLLM 에이전트의 성능을 표준화되고 검증 가능한 방식으로 평가하기 위해 34개의 브라우저 기반 게임과 170개의 태스크를 포함한 벤치마크입니다. 컴퓨터 제어 인터페이스와 시맨틱 액션 파싱 인터페이스를 모두 지원하며, 상태 기반 메트릭을 통해 에이전트의 성과를 객관적으로 측정합니다. 실험 결과 최신 모델들도 실제 인간의 게임 수행 능력에는 크게 미치지 못하는 것으로 나타났습니다.

학습자 관점 포인트

우리 팀 영향: 다양한 게임 환경에서 MLLM 에이전트의 정밀 제어 및 장기 계획 능력을 객관적으로 벤치마킹할 수 있는 표준 프레임워크를 제공합니다.
권장 액션: 실험
액션 근거: 브라우저 기반의 표준화된 인터페이스와 검증 가능한 메트릭을 제공하므로, 자체 개발 중인 멀티모달 에이전트의 성능 검증 도구로 활용 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.07429
Hugging Face Papers: https://huggingface.co/papers/2604.07429

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08516] MolmoWeb: Open Visual Web Agent and Open Data for the Open Web [2604.08340] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크