lmgame-Bench:LLMs 玩游戏水平如何?

发表
Lanxiang HuLanxiang Hu 提交
作者: Lanxiang HuLanxiang Hu, Mingjia Huo, Yuxuan ZhangYuxuan Zhang, Haoyang Yu, Eric P. Xing, Ion Stoica, Tajana Rosing, Haojian Jin, Hao Zhang

摘要

玩视频游戏需要感知、记忆和规划,这正是现代大型语言模型 (LLM) Agent 需要掌握的能力。我们研究了使用流行视频游戏评估现代 LLM 的主要挑战,发现直接将 LLM 应用到游戏中无法进行有效评估,原因有三:脆弱的视觉感知、提示敏感性和潜在的数据污染。我们引入了 lmgame-Bench,旨在将游戏转化为可靠的评估手段。lmgame-Bench 包含一系列平台游戏、解谜游戏和叙事游戏,通过统一的 Gym 风格 API 提供,并搭配轻量级感知和记忆支架,旨在稳定提示方差并消除污染。在 13 个领先模型上的实验表明,lmgame-Bench 具有挑战性,同时也能很好地区分模型。相关性分析显示,每个游戏都考察了通常在其他地方孤立测试的独特能力组合。更有趣的是,在 lmgame-Bench 中的单一游戏上执行强化学习,其能力可以迁移到未见过的游戏以及外部规划任务。我们的评估代码可在 https://github.com/lmgame-org/GamingAgent/lmgame-bench 获取。
查看 arXiv 页面查看 PDF

评论

Lanxiang HuLanxiang Hu
论文作者
论文提交者

玩视频游戏需要感知、记忆和规划——这正是现代大型语言模型(LLM)代理需要掌握的能力。我们研究了使用流行的视频游戏来评估现代LLM的主要挑战,发现直接将LLM放入游戏无法进行有效的评估,原因有三:脆弱的视觉感知、提示敏感性和潜在的数据污染。我们引入了lmgame-Bench,将游戏转化为可靠的评估工具。lmgame-Bench包含一套通过统一的Gym风格API提供的平台游戏、益智游戏和叙事游戏,并搭配轻量级的感知和记忆支架,旨在稳定提示变异并消除污染。通过对13个领先模型的评估,我们展示了lmgame-Bench既具有挑战性,又能很好地区分不同模型。相关性分析表明,每个游戏都探查了通常在其他地方单独测试的独特能力组合。更有趣的是,在lmgame-Bench的单个游戏上进行强化学习,其效果可以迁移到未见过的游戏和外部规划任务中。我们的评估代码可在 https://github.com/lmgame-org/GamingAgent/lmgame-bench 获取。

Lanxiang HuLanxiang Hu
论文作者
论文提交者

排行榜:https://huggingface.co/spaces/lmgame/game_arena_bench