[2602.17594] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

논문 정보
핵심 요약
학습자 관점 포인트
원문 링크

논문 정보

날짜: 2026-02-28
카테고리: -
우선순위 점수: 0.867

핵심 요약

인간의 일반 지능을 평가하기 위해 실제 인간용 게임을 활용하는 개방형 평가 플랫폼인 AI GameStore를 제안합니다. LLM과 인간의 협업을 통해 App Store와 Steam의 인기 게임 100종을 표준화된 환경으로 구축하여 7개의 최신 시각-언어 모델(VLM)을 테스트했습니다. 실험 결과, 최상위 모델들도 대다수 게임에서 인간 평균 점수의 10% 미만을 기록하며 세계 모델 학습과 계획 능력에서 한계를 보였습니다.

학습자 관점 포인트

우리 팀 영향: 실제 상용 게임 환경을 활용한 벤치마크를 통해 우리 팀의 멀티모달 에이전트 모델의 일반화 성능과 추론 능력을 객관적으로 검증할 수 있습니다.
권장 액션: 실험
액션 근거: 기존의 정적인 벤치마크와 달리 실제 인간용 게임을 활용하여 모델의 실질적인 문제 해결 능력을 측정할 수 있는 유용한 도구로 판단됩니다.

원문 링크

arXiv: https://arxiv.org/abs/2602.17594
Hugging Face Papers: https://huggingface.co/papers/2602.17594

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2602.22953] General Agent Evaluation [2602.23058] GeoWorld: Geometric World Models

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

[2602.17594] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크