⏶21

在游戏中思考：通过大型语言模型强化学习在游戏中学习推理

08月29日发表

09月01日由 taesiri 提交

作者: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang

摘要

大型语言模型 (LLMs) 在数学和编码等复杂推理任务方面表现出色，但它们在年轻人轻松完成的简单交互式任务上却经常遇到困难。这种差异突显了陈述性知识（知道某事）和程序性知识（知道如何做某事）之间存在的关键差距。尽管传统的强化学习 (RL) 代理可以通过环境交互来获取程序性知识，但它们通常是黑箱操作，并且需要大量的训练数据。相比之下，LLMs 拥有广泛的世界知识和推理能力，但无法有效地将这种静态知识转化为交互式环境中的动态决策。为了解决这一挑战，我们提出了 Think in Games (TiG)，这是一个新颖的框架，它使 LLMs 能够通过直接与游戏环境交互来开发程序性理解，同时保留其固有的推理和解释能力。具体来说，TiG 将基于 RL 的决策制定重新表述为语言建模任务：LLMs 生成语言引导的策略，这些策略通过基于环境反馈的在线强化学习进行迭代优化。我们的实验结果表明，TiG 成功地弥合了陈述性知识和程序性知识之间的差距，与传统 RL 方法相比，以显着更低的数据和计算需求实现了具有竞争力的性能。此外，TiG 为其决策提供了逐步的自然语言解释，极大地提高了复杂交互任务的透明度和可解释性。

查看 arXiv 页面查看 PDF

taesiri

论文提交者

“Think in Games”通过使用大型语言模型生成经过在线 RL 优化指导的语言策略，改革了用于决策的强化学习，从而能够以更少的数据进行程序化推理并提供可解释的说明。

Josh Young

这是一项有趣的工作，但根据我的经验，您不一定需要基于游戏的强化学习框架来连接声明式和程序性知识。我通常只教会代理识别递归。一旦它能够识别递归，它就能模仿递归，并从中进行函数式应用。这个单一的递归脚手架通常以更低的开销实现了相同的程序性基础。

在游戏中思考：通过大型语言模型强化学习在游戏中学习推理

摘要

评论