Cogito, Ergo Ludo:一个通过推理和规划学习玩游戏的智能体

发表
Zhongwen XuZhongwen Xu 提交
作者: Sai Wang, Yu Wu, Zhongwen XuZhongwen Xu

摘要

AI 生成总结
CEL 是一种使用大语言模型的新型智能体架构,通过显式推理和规划学习掌握复杂环境,在具有稀疏奖励的各种网格世界任务中取得了成功。
追求能够掌握复杂环境的 AI 代理已经取得了显著的成功,然而,现有的深度强化学习方法通常依赖于海量经验,并将它们的知识不透明地编码在神经网络权重中。我们提出了一种不同的范式,即代理通过推理和规划来学习。我们引入了 Cogito, ergo ludo (CEL),一个新颖的代理架构,它利用大型语言模型(LLM)来构建对其环境机制和自身策略的显式、基于语言的理解。CEL 从一个没有任何先验知识(除了动作集)的空白状态开始,在一个交互和反思的循环中运行。每个回合结束后,代理会分析其完整的轨迹以执行两个并发的学习过程:规则归纳,它会完善其对环境动力学的显式模型;以及策略和玩法总结,它将经验提炼成一个可操作的策略库。我们在各种网格世界任务(即扫雷、冰湖和 sokoban)上评估了 CEL,并表明 CEL 代理能够通过自主发现游戏规则并从稀疏奖励中开发有效的策略来成功掌握这些游戏。消融研究证实了迭代过程对于持续学习至关重要。我们的工作展示了一条通往更通用、更可解释的代理的道路,这些代理不仅能有效行动,还能通过对原始经验进行显式推理来构建一个透明且不断改进的世界模型。
查看 arXiv 页面查看 PDF

评论