利用生成游戏测量通用智能

发表
Nicholas TomlinNicholas Tomlin 提交
作者: Vivek VermaVivek Verma, David Huang, William Chen, Dan KleinDan Klein, Nicholas TomlinNicholas Tomlin

摘要

我们提出了gg-bench,这是一个游戏环境集合,旨在评估语言模型的通用推理能力。与大多数静态基准不同,gg-bench是一个数据生成过程,可以随意生成新的评估实例。具体来说,gg-bench是通过以下方式合成生成的:(1) 使用大型语言模型(LLM)生成新颖游戏的自然语言描述,(2) 使用LLM将每个游戏实现为Gym环境中的代码,以及 (3) 通过自博弈(self-play)在生成的游戏上训练强化学习(RL)智能体。我们通过让语言模型根据游戏描述、当前棋盘状态和有效移动列表进行提示,然后模型输出它们希望进行的移动,从而评估它们对这些RL智能体的胜率。gg-bench具有挑战性:GPT-4o和Claude 3.7 Sonnet等最先进的LLM在gg-bench上使用上下文学习(in-context learning)的胜率为7-9%,而o1、o3-mini和DeepSeek-R1等推理模型的平均胜率为31-36%。我们发布了生成的游戏、数据生成过程和评估代码,以支持未来的建模工作和我们基准的扩展。
查看 arXiv 页面查看 PDF
利用生成游戏测量通用智能

评论

Nicholas TomlinNicholas Tomlin
论文作者
论文提交者

我们提出了 gg-bench,这是一个旨在评估大型语言模型通用推理能力的系列游戏环境。与大多数静态基准测试不同,gg-bench 是一个数据生成过程,可以随意生成新的评估实例。具体来说,gg-bench 是通过以下步骤合成生成的:(1) 使用大型语言模型 (LLM) 生成新颖游戏的自然语言描述;(2) 使用 LLM 将每个游戏以代码形式实现为 Gym 环境;(3) 通过自博弈在生成的游戏上训练强化学习 (RL) 智能体。我们通过评估语言模型相对于这些 RL 智能体的胜率来评估它们的能力,评估时向模型提供游戏描述、当前棋盘状态以及有效移动列表作为提示,然后模型输出它们希望采取的移动。gg-bench 具有挑战性:GPT-4o 和 Claude 3.7 Sonnet 等最先进的 LLM 在 gg-bench 上使用上下文学习取得了 7-9% 的胜率,而 o1、o3-mini 和 DeepSeek-R1 等推理模型的平均胜率达到了 31-36%。我们发布了生成的游戏、数据生成过程和评估代码,以支持未来的建模工作和我们基准的扩展。