[2602.17594] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

논문 정보
핵심 요약
학습자 관점 포인트
원문 링크

논문 정보

날짜: 2026-02-27
카테고리: -
우선순위 점수: 0.733

핵심 요약

인간의 일반 지능을 평가하기 위해 실제 인간용 게임들을 활용하는 개방형 평가 플랫폼인 AI GameStore를 제안합니다. LLM과 인간의 협업을 통해 App Store와 Steam의 인기 게임 100종을 표준화된 환경으로 구축하여 7종의 최신 시각-언어 모델(VLM)을 테스트했습니다. 실험 결과 최신 모델들도 인간 평균 점수의 10% 미만에 그쳤으며, 특히 월드 모델 학습과 계획 능력에서 한계를 보였습니다.

학습자 관점 포인트

우리 팀 영향: 범용 인공지능(AGI) 성능 측정을 위해 정적인 벤치마크 대신 실제 인간 수준의 복잡도를 가진 게임 환경을 평가 지표로 활용할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 벤치마크의 한계를 극복하기 위해 실제 상용 게임 환경에서 모델의 추론 및 계획 능력을 정밀하게 측정해 볼 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2602.17594
Hugging Face Papers: https://huggingface.co/papers/2602.17594

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2602.22766] Imagination Helps Visual Reasoning, But Not Yet in Latent Space [2602.20332] No One Size Fits All: QueryBandits for Hallucination Mitigation

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

[2602.17594] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크