⏶5
ReflAct:通过目标状态反思实现 LLM 代理中基于世界的决策
发表
由
JeonghyeKim 提交

作者:
Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung

摘要
大型语言模型(LLM)代理的最新进展在很大程度上建立在 ReAct 等推理主干之上,这些主干在复杂环境中交织思想和行动。然而,ReAct 通常会产生缺乏根据或不连贯的推理步骤,导致代理的实际状态与目标之间出现偏差。我们的分析发现,这源于 ReAct 无法保持一致的内部信念和目标对齐,从而导致错误累积和幻觉。为了解决这个问题,我们引入了 ReflAct,这是一种新颖的主干,它将推理从仅仅规划下一步行动转变为持续反思代理相对于其目标的状态。通过明确地将决策基于状态并强制执行持续的目标对齐,ReflAct 显着提高了战略可靠性。这种设计带来了显著的经验性提升:ReflAct 平均超过 ReAct 27.7%,在 ALFWorld 中取得了 93.3% 的成功率。值得注意的是,ReflAct 甚至优于添加了增强模块(例如 Reflexion、WKM)的 ReAct,这表明加强核心推理主干是实现可靠代理性能的关键。
💡 tl;dr (太长不看): ReflAct 是一种用于大型语言模型代理的决策框架,它通过在执行动作之前提示代理反思其状态和任务目标来改进 ReAct,从而实现更可靠、更符合目标的行为。