在游戏中思考:通过大型语言模型强化学习在游戏中学习推理

发表
taesiritaesiri 提交
作者: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang

摘要

大型语言模型 (LLMs) 在数学和编码等复杂推理任务方面表现出色,但它们在年轻人轻松完成的简单交互式任务上却经常遇到困难。这种差异突显了陈述性知识(知道某事)和程序性知识(知道如何做某事)之间存在的关键差距。尽管传统的强化学习 (RL) 代理可以通过环境交互来获取程序性知识,但它们通常是黑箱操作,并且需要大量的训练数据。相比之下,LLMs 拥有广泛的世界知识和推理能力,但无法有效地将这种静态知识转化为交互式环境中的动态决策。为了解决这一挑战,我们提出了 Think in Games (TiG),这是一个新颖的框架,它使 LLMs 能够通过直接与游戏环境交互来开发程序性理解,同时保留其固有的推理和解释能力。具体来说,TiG 将基于 RL 的决策制定重新表述为语言建模任务:LLMs 生成语言引导的策略,这些策略通过基于环境反馈的在线强化学习进行迭代优化。我们的实验结果表明,TiG 成功地弥合了陈述性知识和程序性知识之间的差距,与传统 RL 方法相比,以显着更低的数据和计算需求实现了具有竞争力的性能。此外,TiG 为其决策提供了逐步的自然语言解释,极大地提高了复杂交互任务的透明度和可解释性。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

“Think in Games”通过使用大型语言模型生成经过在线 RL 优化指导的语言策略,改革了用于决策的强化学习,从而能够以更少的数据进行程序化推理并提供可解释的说明。

Josh YoungJosh Young

这是一项有趣的工作,但根据我的经验,您不一定需要基于游戏的强化学习框架来连接声明式和程序性知识。我通常只教会代理识别递归。一旦它能够识别递归,它就能模仿递归,并从中进行函数式应用。这个单一的递归脚手架通常以更低的开销实现了相同的程序性基础。