⏶89

在流式代理系统中优化以实现有效的规划和工具使用

10月07日发表

10月08日由 ZhuofengLi 提交

作者: Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie, Yu Zhang, Yejin Choi, James Zou, Pan Lu Pan Lu

摘要

AI 生成总结

AgentFlow，一个可训练的、具有流程内优化的智能体框架，通过协调专业模块来增强大型语言模型的推理能力，并在各种任务上优于顶级基线。

以结果为导向的强化学习在大型语言模型（LLMs）的推理能力方面取得了进展，但目前流行的工具增强方法训练的是一个单一的、整体的策略，该策略在完全上下文下交织思考和工具调用；这对于长时序和多样化工具的扩展性较差，并且对新场景的泛化能力较弱。Agentic 系统作为一种有前途的替代方案，通过将工作分解给专门的模块来实现，但大多数系统要么不经过训练，要么依赖于与多轮交互的实时动态解耦的离线训练。我们引入了 AgentFlow，一个可训练的、流程内 agentic 框架，它通过不断演进的内存协调四个模块（规划器、执行器、验证器、生成器），并在多轮循环中直接优化其规划器。为了在实时环境中进行在线策略训练，我们提出了基于流的分组精炼策略优化（Flow-GRPO），它通过将多轮优化转换为一系列可处理的单轮策略更新，来解决长时序、稀疏奖励的信用分配问题。它将一个单一的、可验证的轨迹级结果广播到每一轮，以使局部规划器的决策与全局成功对齐，并用分组归一化优势稳定学习。在十个基准测试中，带有 7B 规模骨干的 AgentFlow 在搜索、agentic、数学和科学任务上分别以 14.9%、14.0%、14.5% 和 4.1% 的平均准确率增幅超越了表现最佳的基线，甚至超越了 GPT-4o 等较大的专有模型。进一步的分析证实了流程内优化的好处，显示出改进的规划、增强的工具调用可靠性以及模型规模和推理轮数的积极扩展。

查看 arXiv 页面查看 PDF

ZhuofengLi

论文作者

论文提交者

🔥 隆重推出 AgentFlow — 一种新型可训练、模块化代理系统，可释放工具增强推理的全部潜力。

🧩 四个专业代理团队通过共享内存和工具包进行协调：
- 🧭 规划者 (Planner) — 规划推理和工具调用
- 🛠 执行者 (Executor) — 调用工具和操作
- ✅ 验证者 (Verifier) — 检查正确性
- ✍️ 生成者 (Generator) — 生成最终结果

💡 神奇之处：

🌀💫 AgentFlow 使用我们的新方法 Flow-GRPO（基于流的组细化策略优化），在系统内部实时直接优化其规划者代理。这是“流程中”的强化学习。

📊 结果：
AgentFlow (Qwen-2.5-7B-Instruct 主干) 在 10 个基准测试中的表现优于顶级基线：

搜索 (search) 🔍 +14.9%
代理推理 (agentic reasoning) 🤖 +14.0%
数学 (math) ➗ +14.5%
科学 (science) 🔬 +4.1%

🏆 甚至超越了 GPT-4o (~200B) 等更大规模的模型。

fig1_teaser-1

快来了解 👇 #AgentFlow：

🌐 网站：https://agentflow.stanford.edu/
🛠️ 代码：https://github.com/lupantech/ineqmath
🚀 演示：https://huggingface.co/spaces/AgentFlow/agentflow

Pan Lu

论文作者

感谢您对我们工作的极大兴趣！对于那些好奇 #AgentFlow 技术“如何”实现的人来说，这里有一个深入了解其核心方法的视角。

1. 架构：一个协调的团队，而不是一个庞大的模型

AgentFlow 使用一个由四个专业化代理组成的团队，它们通过共享内存进行协作，而不是一个试图包办一切的巨型模型：

🧭 规划者 (Planner)： 策略家。它负责制定高层计划以及下一步要使用的工具。这是我们训练的代理。
🛠️ 执行者 (Executor)： 执行者。它通过调用工具（Python、网络搜索等）来执行计划。
✅ 验证者 (Verifier)： 质量检查。它评估步骤是否成功并提供反馈。
✍️ 生成器 (Generator)： 撰写者。它综合所有信息以生成最终答案。

这种模块化设计使每个代理都能在其特定任务上表现出色。

framework_overall

2. 核心挑战：为冗长复杂的任务训练一个代理系统

如何在 10 步任务的开始阶段教会规划者做出良好的决策，而奖励（正确的最终答案）只在最后才出现？这是强化学习中经典的信用分配问题。

我们的解决方案是一种新的 RL 算法，我们称之为Flow-GRPO（基于流的分组精炼策略优化）。

💡 核心思想： 我们使学习直接而简单。一旦整个任务完成，我们就将最终结果（成功/失败）“广播”回规划者一路上的每一个决策。

如果最终答案正确 ✅： 计划中的每一步都将获得积极的奖励。
如果最终答案错误 ❌： 每一步都将被否定。

这种“流程内”优化直接将早期行动与最终目标联系起来，使训练稳定且高效。

Flow-GRPO

3. 证明：从重复循环到自适应自我纠错

那么，这种训练实际上教会了规划者什么？让我们看看它的实际运行情况。

训练前： 代理尝试使用一个工具，失败了。它陷入循环，重复完全相同的错误，最终放弃。 🔁
Flow-GRPO 训练后： 代理尝试使用一个工具并遇到错误。但它没有重复同样的错误，而是学会了。它识别出失败的方法，调整计划，尝试新的策略，并成功解决了问题。 💡➡️✅

这是关键结果：AgentFlow 学会了在初始计划失败时自我纠错并找到创造性解决方案，这是稳健推理的关键技能。

_cover-c

我们对构建更强大、更可靠代理的这个方向感到兴奋，并期待与社区合作，进一步推动这些想法！

联系我们：

在流式代理系统中优化以实现有效的规划和工具使用

摘要

评论