⏶21
在游戏中思考:通过大型语言模型强化学习在游戏中学习推理
发表
由
taesiri 提交

作者: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
摘要
大型语言模型 (LLMs) 在数学和编码等复杂推理任务方面表现出色,但它们在年轻人轻松完成的简单交互式任务上却经常遇到困难。这种差异突显了陈述性知识(知道某事)和程序性知识(知道如何做某事)之间存在的关键差距。尽管传统的强化学习 (RL) 代理可以通过环境交互来获取程序性知识,但它们通常是黑箱操作,并且需要大量的训练数据。相比之下,LLMs 拥有广泛的世界知识和推理能力,但无法有效地将这种静态知识转化为交互式环境中的动态决策。为了解决这一挑战,我们提出了 Think in Games (TiG),这是一个新颖的框架,它使 LLMs 能够通过直接与游戏环境交互来开发程序性理解,同时保留其固有的推理和解释能力。具体来说,TiG 将基于 RL 的决策制定重新表述为语言建模任务:LLMs 生成语言引导的策略,这些策略通过基于环境反馈的在线强化学习进行迭代优化。我们的实验结果表明,TiG 成功地弥合了陈述性知识和程序性知识之间的差距,与传统 RL 方法相比,以显着更低的数据和计算需求实现了具有竞争力的性能。此外,TiG 为其决策提供了逐步的自然语言解释,极大地提高了复杂交互任务的透明度和可解释性。
“Think in Games”通过使用大型语言模型生成经过在线 RL 优化指导的语言策略,改革了用于决策的强化学习,从而能够以更少的数据进行程序化推理并提供可解释的说明。