논문 정보
- 날짜:
2026-04-12 - 카테고리: -
- 우선순위 점수: 1.5
핵심 요약
GameWorld는 MLLM 에이전트의 성능을 표준화되고 검증 가능한 방식으로 평가하기 위해 34개의 게임과 170개의 태스크를 포함한 벤치마크입니다. 컴퓨터 제어 인터페이스와 시맨틱 액션 파싱 인터페이스를 모두 지원하며, 상태 기반의 객관적인 지표를 통해 에이전트의 성과를 측정합니다. 실험 결과 최신 모델들도 실제 인간의 게임 수행 능력에는 여전히 크게 미치지 못하는 것으로 나타났습니다.학습자 관점 포인트
- 우리 팀 영향: 다양한 게임 환경에서 MLLM 에이전트의 정밀 제어 및 장기 계획 능력을 객관적으로 벤치마킹할 수 있는 표준 프레임워크를 제공합니다.
- 권장 액션: 실험
- 액션 근거: 제안된 벤치마크가 에이전트의 실시간 상호작용과 액션 유효성을 정밀하게 평가하므로 내부 에이전트 모델의 성능 검증에 유용할 것으로 판단됩니다.
원문 링크
- arXiv: https://arxiv.org/abs/2604.07429
- Hugging Face Papers: https://huggingface.co/papers/2604.07429

