⏶37
AWorld:为智能体AI编排训练配方
发表
由
chenyi zhuang 提交
作者:
Chengyue Yu,
Siyuan Lu,
Chenyi Zhuang, Dong Wang,
Qintong Wu, Zongyue Li, Runsheng Gan, Chunfeng Wang,
Siqi Hou, Gaochi Huang,
Wenlong Yan, Lifeng Hong,
Aohui Xue,
Yanfeng Wang, Jinjie Gu, David Tsai, Tao Lin



摘要
学习实践范式对于开发能力强的智能AI系统至关重要,然而,效率低下的经验生成严重阻碍了这一范式的发展,尤其是在GAIA等复杂基准测试中,这种瓶颈尤为突出。为了解决这个问题,我们引入了AWorld,一个为大规模智能体-环境交互而设计的开源系统。通过在集群中分发任务,AWorld将经验收集速度比标准的单节点顺序执行加速了14.6倍。这种关键的速度提升使得广泛的强化学习变得可行且可扩展。利用这一能力,我们训练了一个基于Qwen3-32B的智能体,其性能显著优于基础模型,将整体GAIA准确率从21.59%提升到32.23%。在基准测试中最具挑战性的关卡中,我们的智能体取得了16.33%的分数,超越了领先的专有模型。我们的开源系统和由此产生的智能体提供了一个完整的智能体AI训练流水线的实用蓝图,涵盖了从高效交互到可证明的模型改进。
我们开源了一个全面的端到端智能体学习方法,该方法建立在三大核心支柱之上:强大的训练框架(例如,swift),智能的智能体系统(例如,AWorld),以及多样化的环境(例如,GAIA)。与标准的单节点顺序执行相比,我们的分布式实现实现了显著的 14.6 倍的 rollout 加速。由此产生的训练模型在性能上持续优于领先的专有解决方案,证明了该框架的有效性和效率。