在流式代理系统中优化以实现有效的规划和工具使用

发表
ZhuofengLiZhuofengLi 提交
作者: ZhuofengLiZhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu ZhangYu Zhang, Yejin Choi, James Zou, Pan LuPan Lu

摘要

AI 生成总结
AgentFlow,一个可训练的、具有流程内优化的智能体框架,通过协调专业模块来增强大型语言模型的推理能力,并在各种任务上优于顶级基线。
以结果为导向的强化学习大型语言模型(LLMs)的推理能力方面取得了进展,但目前流行的工具增强方法训练的是一个单一的、整体的策略,该策略在完全上下文下交织思考和工具调用;这对于长时序和多样化工具的扩展性较差,并且对新场景的泛化能力较弱。Agentic 系统作为一种有前途的替代方案,通过将工作分解给专门的模块来实现,但大多数系统要么不经过训练,要么依赖于与多轮交互的实时动态解耦的离线训练。我们引入了 AgentFlow,一个可训练的、流程内 agentic 框架,它通过不断演进的内存协调四个模块(规划器、执行器、验证器、生成器),并在多轮循环中直接优化其规划器。为了在实时环境中进行在线策略训练,我们提出了基于流的分组精炼策略优化(Flow-GRPO),它通过将多轮优化转换为一系列可处理的单轮策略更新,来解决长时序、稀疏奖励的信用分配问题。它将一个单一的、可验证的轨迹级结果广播到每一轮,以使局部规划器的决策与全局成功对齐,并用分组归一化优势稳定学习。在十个基准测试中,带有 7B 规模骨干的 AgentFlow 在搜索、agentic、数学和科学任务上分别以 14.9%、14.0%、14.5% 和 4.1% 的平均准确率增幅超越了表现最佳的基线,甚至超越了 GPT-4o 等较大的专有模型。进一步的分析证实了流程内优化的好处,显示出改进的规划、增强的工具调用可靠性以及模型规模和推理轮数的积极扩展。
查看 arXiv 页面查看 PDF

评论

ZhuofengLiZhuofengLi
论文作者
论文提交者
🔥 隆重推出 AgentFlow — 一种新型可训练、模块化代理系统,可释放工具增强推理的全部潜力。

🧩 四个专业代理团队通过共享内存和工具包进行协调:
- 🧭 规划者 (Planner) — 规划推理和工具调用
- 🛠 执行者 (Executor) — 调用工具和操作
- ✅ 验证者 (Verifier) — 检查正确性
- ✍️ 生成者 (Generator) — 生成最终结果

💡 神奇之处:

🌀💫 AgentFlow 使用我们的新方法 Flow-GRPO(基于流的组细化策略优化),在系统内部实时直接优化其规划者代理。这是“流程中”的强化学习。

📊 结果:
AgentFlow (Qwen-2.5-7B-Instruct 主干) 在 10 个基准测试中的表现优于顶级基线:

  • 搜索 (search) 🔍 +14.9%
  • 代理推理 (agentic reasoning) 🤖 +14.0%
  • 数学 (math) ➗ +14.5%
  • 科学 (science) 🔬 +4.1%

🏆 甚至超越了 GPT-4o (~200B) 等更大规模的模型。

fig1_teaser-1

快来了解 👇 #AgentFlow:

🌐 网站:https://agentflow.stanford.edu/
🛠️ 代码:https://github.com/lupantech/ineqmath
🚀 演示:https://huggingface.co/spaces/AgentFlow/agentflow

Pan LuPan Lu
论文作者

感谢您对我们工作的极大兴趣!对于那些好奇 #AgentFlow 技术“如何”实现的人来说,这里有一个深入了解其核心方法的视角。

1. 架构:一个协调的团队,而不是一个庞大的模型

AgentFlow 使用一个由四个专业化代理组成的团队,它们通过共享内存进行协作,而不是一个试图包办一切的巨型模型:

  • 🧭 规划者 (Planner): 策略家。它负责制定高层计划以及下一步要使用的工具。这是我们训练的代理。
  • 🛠️ 执行者 (Executor): 执行者。它通过调用工具(Python、网络搜索等)来执行计划。
  • 验证者 (Verifier): 质量检查。它评估步骤是否成功并提供反馈。
  • ✍️ 生成器 (Generator): 撰写者。它综合所有信息以生成最终答案。

这种模块化设计使每个代理都能在其特定任务上表现出色。

framework_overall

2. 核心挑战:为冗长复杂的任务训练一个代理系统

如何在 10 步任务的开始阶段教会规划者做出良好的决策,而奖励(正确的最终答案)只在最后才出现?这是强化学习中经典的信用分配问题。

我们的解决方案是一种新的 RL 算法,我们称之为Flow-GRPO(基于流的分组精炼策略优化)。

💡 核心思想: 我们使学习直接而简单。一旦整个任务完成,我们就将最终结果(成功/失败)“广播”回规划者一路上的每一个决策。

  • 如果最终答案正确 ✅: 计划中的每一步都将获得积极的奖励。
  • 如果最终答案错误 ❌: 每一 步都将被否定。

这种“流程内”优化直接将早期行动与最终目标联系起来,使训练稳定且高效。

Flow-GRPO

3. 证明:从重复循环到自适应自我纠错

那么,这种训练实际上教会了规划者什么?让我们看看它的实际运行情况。

  • 训练前: 代理尝试使用一个工具,失败了。它陷入循环,重复完全相同的错误,最终放弃。 🔁
  • Flow-GRPO 训练后: 代理尝试使用一个工具并遇到错误。但它没有重复同样的错误,而是学会了。它识别出失败的方法,调整计划,尝试新的策略,并成功解决了问题。 💡➡️✅

这是关键结果:AgentFlow 学会了在初始计划失败时自我纠错并找到创造性解决方案,这是稳健推理的关键技能。

_cover-c

我们对构建更强大、更可靠代理的这个方向感到兴奋,并期待与社区合作,进一步推动这些想法!

联系我们: