[2602.17594] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

핵심 요약

인간의 일반 지능을 평가하기 위해 실제 인간용 게임을 활용하는 개방형 평가 플랫폼인 AI GameStore를 제안합니다. LLM과 인간의 협업을 통해 Apple App Store 및 Steam의 인기 게임 100종을 표준화된 환경으로 구축하였습니다. 최신 VLM 7종을 테스트한 결과, 대부분의 게임에서 인간 평균 점수의 10% 미만을 기록하며 세계 모델 학습과 계획 능력의 한계를 보였습니다.

학습자 관점 포인트

우리 팀 영향: 실제 상용 게임 환경에서의 벤치마크를 통해 우리 팀의 멀티모달 모델이 가진 일반화 성능과 추론 능력을 객관적으로 측정할 수 있는 지표를 제공합니다.

권장 액션: 실험

액션 근거: 기존의 정적인 벤치마크와 달리 실제 인간용 게임을 활용하여 모델의 실질적인 문제 해결 능력을 검증할 수 있는 유용한 도구이기 때문입니다.

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2602.17594] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크