WALL-E 2.0:通过神经符号学习进行世界对齐改进基于世界模型的大型语言模型智能体

发表
Tianyi ZhouTianyi Zhou 提交
作者: Siyu ZhouSiyu Zhou, Tianyi ZhouTianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi ZhangChengqi Zhang

摘要

我们能否用大型语言模型(LLMs)构建精确的世界模型?世界模型如何使LLM智能体受益?LLMs的先验知识与特定环境的动态之间的差距通常是LLMs作为世界模型性能的瓶颈。为了弥合这一差距,我们提出了一种无需训练的“世界对齐”方法,该方法学习与LLMs互补的环境符号知识。符号知识涵盖行动规则、知识图谱和场景图,这些知识由LLMs从探索轨迹中提取并编码成可执行代码,以规范LLM智能体的策略。我们进一步提出了一个无RL、基于模型的智能体“WALL-E 2.0”,通过模型预测控制(MPC)框架实现。与需要昂贵即时优化的经典MPC不同,我们采用LLM智能体作为未来步骤行动的有效前瞻优化器,通过与神经符号世界模型交互。尽管LLM智能体强大的启发式方法使其成为MPC中的高效规划器,但其规划行动的质量也由对齐世界模型的准确预测来保障。它们共同显著提高了在新环境中的学习效率。在Mars(类似Minecraft)和ALFWorld(具身室内环境)的开放世界挑战中,WALL-E 2.0显著优于现有方法,例如在Mars中成功率超过基线16.1%-51.6%,分数至少超过61.7%。在ALFWorld中,仅迭代4次就取得了新的纪录98%的成功率。
查看 arXiv 页面查看 PDF
WALL-E 2.0:通过神经符号学习进行世界对齐改进基于世界模型的大型语言模型智能体
WALL-E 2.0:通过神经符号学习进行世界对齐改进基于世界模型的大型语言模型智能体

评论

Tianyi ZhouTianyi Zhou
论文作者
论文提交者
WALL-E 2.0 = 神经-符号世界模型 + 基于 MPC 的 LLM 智能体 # 神经-符号世界模型 = LLM + 从过去经验中 LLM 错误中提取的补充符号知识(动作规则、场景图、知识图谱) # WALL-E 1.0 的新更新: - 知识图谱的归纳学习:WALL-E 2.0 通过对 LLM 进行归纳推理来构建知识图谱,以从过去经验中推断符号关系(例如,需要、消耗),从而丰富智能体对动作前置条件和效果的理解。- 动态场景图提取:WALL-E 2.0 根据实时环境反馈动态构建场景图,提供环境中物体及其空间关系的结构化和最新表示。- 神经-符号世界模型集成:WALL-E 2.0 将可执行的动作规则、知识图谱和场景图与 LLM 集成,形成一个统一的神经-符号世界模型。这使得 LLM 智能体能够执行场景感知、结构化和可解释的规划,显著提高了智能体对复杂、动态环境的适应性。
Tianyi ZhouTianyi Zhou
论文作者
论文提交者

在 ALFWorld 和 Mars (Minecraft 类型) 任务上取得了新的 SOTA:Screenshot 2025-04-22 at 11.02.03 PM.png

lance chenlance chen

太酷了