논문 정보
- 날짜:
2026-02-28
- 카테고리: -
- 우선순위 점수: 0.867
핵심 요약
인간의 일반 지능을 평가하기 위해 실제 인간용 게임을 활용하는 개방형 평가 플랫폼인 AI GameStore를 제안합니다. LLM과 인간의 협업을 통해 App Store와 Steam의 인기 게임 100종을 표준화된 환경으로 구축하여 7개의 최신 시각-언어 모델(VLM)을 테스트했습니다. 실험 결과, 최상위 모델들도 대다수 게임에서 인간 평균 점수의 10% 미만을 기록하며 세계 모델 학습과 계획 능력에서 한계를 보였습니다.
학습자 관점 포인트
- 우리 팀 영향: 실제 상용 게임 환경을 활용한 벤치마크를 통해 우리 팀의 멀티모달 에이전트 모델의 일반화 성능과 추론 능력을 객관적으로 검증할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 기존의 정적인 벤치마크와 달리 실제 인간용 게임을 활용하여 모델의 실질적인 문제 해결 능력을 측정할 수 있는 유용한 도구로 판단됩니다.
원문 링크
학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.