Skip to main content

논문 정보

  • 날짜: 2026-02-27
  • 카테고리: -
  • 우선순위 점수: 0.733

핵심 요약

인간의 일반 지능을 평가하기 위해 실제 인간용 게임들을 활용하는 개방형 평가 플랫폼인 AI GameStore를 제안합니다. LLM과 인간의 협업을 통해 App Store와 Steam의 인기 게임 100종을 표준화된 환경으로 구축하여 7종의 최신 시각-언어 모델(VLM)을 테스트했습니다. 실험 결과 최신 모델들도 인간 평균 점수의 10% 미만에 그쳤으며, 특히 월드 모델 학습과 계획 능력에서 한계를 보였습니다.

학습자 관점 포인트

  • 우리 팀 영향: 범용 인공지능(AGI) 성능 측정을 위해 정적인 벤치마크 대신 실제 인간 수준의 복잡도를 가진 게임 환경을 평가 지표로 활용할 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 기존 벤치마크의 한계를 극복하기 위해 실제 상용 게임 환경에서 모델의 추론 및 계획 능력을 정밀하게 측정해 볼 가치가 있습니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.