⏶89
在流式代理系统中优化以实现有效的规划和工具使用
发表
由
ZhuofengLi 提交

作者:
Zhuofeng Li, Haoxiang Zhang, Seungju Han, Sheng Liu, Jianwen Xie,
Yu Zhang, Yejin Choi, James Zou,
Pan Lu



摘要
AI 生成总结
AgentFlow,一个可训练的、具有流程内优化的智能体框架,通过协调专业模块来增强大型语言模型的推理能力,并在各种任务上优于顶级基线。以结果为导向的强化学习在大型语言模型(LLMs)的推理能力方面取得了进展,但目前流行的工具增强方法训练的是一个单一的、整体的策略,该策略在完全上下文下交织思考和工具调用;这对于长时序和多样化工具的扩展性较差,并且对新场景的泛化能力较弱。Agentic 系统作为一种有前途的替代方案,通过将工作分解给专门的模块来实现,但大多数系统要么不经过训练,要么依赖于与多轮交互的实时动态解耦的离线训练。我们引入了 AgentFlow,一个可训练的、流程内 agentic 框架,它通过不断演进的内存协调四个模块(规划器、执行器、验证器、生成器),并在多轮循环中直接优化其规划器。为了在实时环境中进行在线策略训练,我们提出了基于流的分组精炼策略优化(Flow-GRPO),它通过将多轮优化转换为一系列可处理的单轮策略更新,来解决长时序、稀疏奖励的信用分配问题。它将一个单一的、可验证的轨迹级结果广播到每一轮,以使局部规划器的决策与全局成功对齐,并用分组归一化优势稳定学习。在十个基准测试中,带有 7B 规模骨干的 AgentFlow 在搜索、agentic、数学和科学任务上分别以 14.9%、14.0%、14.5% 和 4.1% 的平均准确率增幅超越了表现最佳的基线,甚至超越了 GPT-4o 等较大的专有模型。进一步的分析证实了流程内优化的好处,显示出改进的规划、增强的工具调用可靠性以及模型规模和推理轮数的积极扩展。
评论

论文作者
感谢您对我们工作的极大兴趣!对于那些好奇 #AgentFlow 技术“如何”实现的人来说,这里有一个深入了解其核心方法的视角。
1. 架构:一个协调的团队,而不是一个庞大的模型
AgentFlow 使用一个由四个专业化代理组成的团队,它们通过共享内存进行协作,而不是一个试图包办一切的巨型模型:
- 🧭 规划者 (Planner): 策略家。它负责制定高层计划以及下一步要使用的工具。这是我们训练的代理。
- 🛠️ 执行者 (Executor): 执行者。它通过调用工具(Python、网络搜索等)来执行计划。
- ✅ 验证者 (Verifier): 质量检查。它评估步骤是否成功并提供反馈。
- ✍️ 生成器 (Generator): 撰写者。它综合所有信息以生成最终答案。
这种模块化设计使每个代理都能在其特定任务上表现出色。
2. 核心挑战:为冗长复杂的任务训练一个代理系统
如何在 10 步任务的开始阶段教会规划者做出良好的决策,而奖励(正确的最终答案)只在最后才出现?这是强化学习中经典的信用分配问题。
我们的解决方案是一种新的 RL 算法,我们称之为Flow-GRPO(基于流的分组精炼策略优化)。
💡 核心思想: 我们使学习直接而简单。一旦整个任务完成,我们就将最终结果(成功/失败)“广播”回规划者一路上的每一个决策。
- 如果最终答案正确 ✅: 计划中的每一步都将获得积极的奖励。
- 如果最终答案错误 ❌: 每一 步都将被否定。
这种“流程内”优化直接将早期行动与最终目标联系起来,使训练稳定且高效。
3. 证明:从重复循环到自适应自我纠错
那么,这种训练实际上教会了规划者什么?让我们看看它的实际运行情况。
- 训练前: 代理尝试使用一个工具,失败了。它陷入循环,重复完全相同的错误,最终放弃。 🔁
- Flow-GRPO 训练后: 代理尝试使用一个工具并遇到错误。但它没有重复同样的错误,而是学会了。它识别出失败的方法,调整计划,尝试新的策略,并成功解决了问题。 💡➡️✅
这是关键结果:AgentFlow 学会了在初始计划失败时自我纠错并找到创造性解决方案,这是稳健推理的关键技能。
我们对构建更强大、更可靠代理的这个方向感到兴奋,并期待与社区合作,进一步推动这些想法!
联系我们:
🧩 四个专业代理团队通过共享内存和工具包进行协调:
- 🧭 规划者 (Planner) — 规划推理和工具调用
- 🛠 执行者 (Executor) — 调用工具和操作
- ✅ 验证者 (Verifier) — 检查正确性
- ✍️ 生成者 (Generator) — 生成最终结果
💡 神奇之处:
🌀💫 AgentFlow 使用我们的新方法 Flow-GRPO(基于流的组细化策略优化),在系统内部实时直接优化其规划者代理。这是“流程中”的强化学习。
📊 结果:
AgentFlow (Qwen-2.5-7B-Instruct 主干) 在 10 个基准测试中的表现优于顶级基线:
🏆 甚至超越了 GPT-4o (~200B) 等更大规模的模型。
🌐 网站:https://agentflow.stanford.edu/
🛠️ 代码:https://github.com/lupantech/ineqmath
🚀 演示:https://huggingface.co/spaces/AgentFlow/agentflow