通过持续预训练扩展代理

发表
Jialong WuJialong Wu 提交
作者: Liangcai SuLiangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang, Maojia SongMaojia Song, Xinyu Wang, Kuan Li, Jialong WuJialong Wu, Xuanzhong ChenXuanzhong Chen, Zile Qiao, zhongwang zhangZhongwang Zhang, Huifeng Yin, Shihao Cai, Runnan FangRunnan Fang, Zhengwei Tao, Wenbiao YinWenbiao Yin, Chenxiong Qian, Yong Jiang, pengjun xiePengjun Xie, Fei Huang, Jingren Zhou

摘要

AI 生成总结
AgentFounder 是一个整合了智能体持续预训练的深度研究智能体模型,它在智能体任务中取得了最先进的性能,同时保持了强大的工具使用能力。
大型语言模型(LLM)已经发展成为能够自主使用工具和多步推理以解决复杂问题的代理系统。然而,基于通用基础模型的训练后方法在代理任务上,尤其是在开源实现中,表现持续不佳。我们发现了根本原因:缺乏强大的代理基础模型迫使模型在训练后同时学习各种代理行为,同时将其与专家演示对齐,从而产生了根本性的优化冲突。为此,我们率先提出将代理持续预训练(Agentic CPT)纳入深度研究代理训练流程,以构建强大的代理基础模型。在此方法的基础上,我们开发了一个名为 AgentFounder 的深度研究代理模型。我们在 10 个基准测试上评估了我们的 AgentFounder-30B,取得了最先进的性能,同时保留了强大的工具使用能力,特别是在 BrowseComp-en 上为 39.9%,在 BrowseComp-zh 上为 43.3%,在 HLE 上为 31.5% 的 Pass@1。
查看 arXiv 页面查看 PDF

评论

Jialong WuJialong Wu
论文作者
论文提交者

大型语言模型(LLMs)已发展成为能够自主使用工具和进行多步推理来解决复杂问题的代理系统。然而,基于通用基础模型进行训练后调优的方法在代理任务中,尤其是在开源实现中,表现始终不佳。我们发现了根本原因:缺乏强大的代理基础模型,迫使模型在训练后调优时同时学习各种代理行为,并将其与专家演示对齐,从而产生根本性的优化冲突。为此,我们首次提出将代理持续预训练(Agentic Continual Pre-training,Agentic CPT)纳入深度研究代理的训练流程,以构建强大的代理基础模型。基于此方法,我们开发了一个名为 AgentFounder 的深度研究代理模型。我们在 10 个基准测试上评估了我们的 AgentFounder-30B,并取得了最先进的性能,同时保留了强大的工具使用能力,例如在 BrowseComp-en 上达到 39.9%,在 BrowseComp-zh 上达到 43.3%,以及在 HLE 上 Pass@1 达到 31.5%。

Jialong WuJialong Wu
论文作者
论文提交者

Github: https://github.com/Alibaba-NLP/DeepResearch/
博客: https://tongyi-agent.github.io/blog/

ChmielewskiChmielewski

AgentFounder-30b

WebSailor-V2-30B-A3B

如何与:
Tongyi-DeepResearch-30B-A3B

连接,每个智能体都是一个独立的模型吗?

image.png

Liangcai SuLiangcai Su
论文作者

感谢您的关注。实际上,Tongyi DeepResearch 采用了 AgentFounder 和 WebSailor-v2 的方法和数据。更详细的版本将包含在我们未来的技术报告(可用时)中。然而,AgentFounder 和 WebSailor-v2 中使用的数据和模型可能源于探索性实验,并且可能与最终的 DeepResearch 模型不同。

Yuchen ZhuangYuchen Zhuang

感谢您分享这篇非常有趣的论文!非常出色的工作!我们之前也进行过类似使用 CPT 进行智能体训练的探索:https://arxiv.org/pdf/2502.06589,并且有一些相似的发现。很高兴看到使用更强大的模型(Qwen 系列)和更多的数据进一步提升了性能。

Liangcai SuLiangcai Su
论文作者

很酷!我之前没注意到这篇论文,我会仔细阅读你们的工作,我认为在更新版本中很可能需要引用你们的工作!!感谢您的回复!!!

Liangcai SuLiangcai Su
论文作者
此评论已隐藏。