Skip to main content

논문 정보

  • 날짜: 2026-03-01
  • 카테고리: -
  • 우선순위 점수: 0.867

핵심 요약

인간의 일반 지능을 평가하기 위해 실제 인간용 게임을 활용하는 개방형 평가 플랫폼인 AI GameStore를 제안합니다. LLM과 인간의 협업을 통해 Apple App Store 및 Steam의 인기 게임 100종을 표준화된 환경으로 구축하였습니다. 최신 VLM 7종을 테스트한 결과, 대부분의 게임에서 인간 평균 점수의 10% 미만을 기록하며 세계 모델 학습과 계획 능력의 한계를 보였습니다.

학습자 관점 포인트

  • 우리 팀 영향: 실제 상용 게임 환경에서의 벤치마크를 통해 우리 팀의 멀티모달 모델이 가진 일반화 성능과 추론 능력을 객관적으로 측정할 수 있는 지표를 제공합니다.
  • 권장 액션: 실험
  • 액션 근거: 기존의 정적인 벤치마크와 달리 실제 인간용 게임을 활용하여 모델의 실질적인 문제 해결 능력을 검증할 수 있는 유용한 도구이기 때문입니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.