⏶10

利用生成游戏测量通用智能

05月12日发表

05月14日由 Nicholas Tomlin 提交

作者: Vivek Verma, David Huang, William Chen, Dan Klein, Nicholas Tomlin

摘要

我们提出了gg-bench，这是一个游戏环境集合，旨在评估语言模型的通用推理能力。与大多数静态基准不同，gg-bench是一个数据生成过程，可以随意生成新的评估实例。具体来说，gg-bench是通过以下方式合成生成的：(1) 使用大型语言模型（LLM）生成新颖游戏的自然语言描述，(2) 使用LLM将每个游戏实现为Gym环境中的代码，以及 (3) 通过自博弈（self-play）在生成的游戏上训练强化学习（RL）智能体。我们通过让语言模型根据游戏描述、当前棋盘状态和有效移动列表进行提示，然后模型输出它们希望进行的移动，从而评估它们对这些RL智能体的胜率。gg-bench具有挑战性：GPT-4o和Claude 3.7 Sonnet等最先进的LLM在gg-bench上使用上下文学习（in-context learning）的胜率为7-9%，而o1、o3-mini和DeepSeek-R1等推理模型的平均胜率为31-36%。我们发布了生成的游戏、数据生成过程和评估代码，以支持未来的建模工作和我们基准的扩展。

查看 arXiv 页面查看 PDF

Nicholas Tomlin

论文作者

论文提交者

我们提出了 gg-bench，这是一个旨在评估大型语言模型通用推理能力的系列游戏环境。与大多数静态基准测试不同，gg-bench 是一个数据生成过程，可以随意生成新的评估实例。具体来说，gg-bench 是通过以下步骤合成生成的：(1) 使用大型语言模型 (LLM) 生成新颖游戏的自然语言描述；(2) 使用 LLM 将每个游戏以代码形式实现为 Gym 环境；(3) 通过自博弈在生成的游戏上训练强化学习 (RL) 智能体。我们通过评估语言模型相对于这些 RL 智能体的胜率来评估它们的能力，评估时向模型提供游戏描述、当前棋盘状态以及有效移动列表作为提示，然后模型输出它们希望采取的移动。gg-bench 具有挑战性：GPT-4o 和 Claude 3.7 Sonnet 等最先进的 LLM 在 gg-bench 上使用上下文学习取得了 7-9% 的胜率，而 o1、o3-mini 和 DeepSeek-R1 等推理模型的平均胜率达到了 31-36%。我们发布了生成的游戏、数据生成过程和评估代码，以支持未来的建模工作和我们基准的扩展。

利用生成游戏测量通用智能

摘要

评论