⏶122
Chain-of-Agents:通过多智能体蒸馏和智能体强化学习实现端到端智能体基础模型
发表
由
Zhou 提交
作者: Weizhen Li, Jianbo Lin, Zhuosong Jiang, Jingyi Cao, Xinpeng Liu, Jiayu Zhang, Zhenqiang Huang, Qianben Chen, Weichen Sun, Qiexiang Wang, Hongxuan Lu,
Tianrui Qin, Chenghao Zhu, Yi Yao, Shuying Fan,
Xiaowan Li, Tiannan Wang, Pai Liu,
King Zhu, He Zhu,
Dingfeng Shi, Piaohong Wang, Yeyi Guan, Xiangru Tang,
Minghao Liu, Yuchen Eleanor Jiang, Jian Yang, Jiaheng Liu,
Ge Zhang, Wangchunshu Zhou


摘要
大型语言模型(LLM)和多智能体系统在复杂问题解决任务(如深度研究、氛围编码和数学推理)方面取得了显著进展。然而,大多数现有的多智能体系统都是通过手动提示/工作流工程与复杂的智能体框架构建的,这使得它们计算效率低下,能力不足,并且无法从以数据为中心的学习中受益。在这项工作中,我们引入了智能体链(Chain-of-Agents,CoA),这是一种新颖的LLM推理范式,它能够以与多智能体系统相同的方式(即,通过多个工具和多个智能体的多轮问题解决)在一个模型中实现原生的端到端复杂问题解决。在智能体链问题解决中,模型动态激活不同的工具智能体和角色扮演智能体,以端到端的方式模拟多智能体协作。为了激发LLM的端到端智能体链问题解决能力,我们引入了一个多智能体蒸馏框架,将最先进的多智能体系统蒸馏为智能体链轨迹,用于智能体监督微调。然后,我们在可验证的智能体任务上使用智能体强化学习,以进一步提高模型在智能体链问题解决方面的能力。我们将由此产生的模型称为智能体基础模型(Agent Foundation Models,AFM)。我们的实证研究表明,AFM在网络智能体和代码智能体设置中的各种基准测试中都建立了新的最先进性能。我们将整个研究(包括模型权重、训练和评估代码以及训练数据)完全开源,这为未来智能体模型和智能体强化学习的研究提供了坚实的起点。
用强化学习训练的端到端多智能体模型