⏶6
VideoGameBench: 视觉-语言模型能否通关热门电子游戏?
发表
由
Ofir Press 提交
作者:
Alex L. Zhang, Thomas L. Griffiths, Karthik R. Narasimhan, Ofir Press

摘要
视觉-语言模型 (VLM) 在编码和数学基准上取得了优异的成绩,这些基准对人类来说颇具挑战性,但它们执行人类天生就能完成的任务——如感知、空间导航和记忆管理——的能力仍未得到充分研究。真正的视频游戏经过精心设计,通过利用天生的归纳偏见使人类易于学习和掌握,这使其成为评估 VLM 这些能力的理想试验平台。为此,我们推出了 VideoGameBench,这是一个包含 10 款上世纪 90 年代流行视频游戏的基准,VLM 在其中与游戏进行实时直接互动。VideoGameBench 要求模型仅凭原始视觉输入以及对目标和控制的高级描述来完成整个游戏,这与依赖游戏特定支架和辅助信息的现有设置显著不同。我们保留了其中三款游戏作为秘密,以鼓励能泛化到未知环境的解决方案。我们的实验表明,前沿视觉-语言模型难以在每款游戏的开端取得进展。我们发现推理延迟是前沿模型在实时设置下的主要限制;因此,我们引入了 VideoGameBench Lite,在此设置下,游戏会在等待语言模型的下一步行动时暂停。表现最佳的模型 Gemini 2.5 Pro 在 VideoGameBench 上仅完成了 0.48%,在 VideoGameBench Lite 上仅完成了 1.6%。我们希望将上述人类技能形式化到这个基准中能推动这些研究方向的进展。
评论

论文作者
我们还有一个代码仓库,您可以查看:https://github.com/alexzhang13/videogamebench
您可以生成像这样的视频剪辑,例如 Gemini 2.5 Pro 玩《星之卡比:梦之泉物语》:https://cdn-uploads.huggingface.co/production/uploads/67bcaba1608ec2bdb922e8ec/i5Pz1ZPlMpMaL7BQorUbn.mp4
我们推出了一项新的基准测试,挑战前沿 VLM 玩 20 世纪 90 年代的 DOS 和 Game Boy 游戏。排名最高的 LM (Gemini) 在此基准测试中仅完成了 0.48% 的游戏。
https://vgbench.com 上有大量剪辑和信息。