⏶110
通过持续预训练扩展代理
发表
由
Jialong Wu 提交

作者:
Liangcai Su, Zhen Zhang, Guangyu Li, Zhuo Chen, Chenxi Wang,
Maojia Song, Xinyu Wang, Kuan Li,
Jialong Wu,
Xuanzhong Chen, Zile Qiao,
Zhongwang Zhang, Huifeng Yin, Shihao Cai,
Runnan Fang, Zhengwei Tao,
Wenbiao Yin, Chenxiong Qian, Yong Jiang,
Pengjun Xie, Fei Huang, Jingren Zhou


摘要
AI 生成总结
AgentFounder 是一个整合了智能体持续预训练的深度研究智能体模型,它在智能体任务中取得了最先进的性能,同时保持了强大的工具使用能力。大型语言模型(LLM)已经发展成为能够自主使用工具和多步推理以解决复杂问题的代理系统。然而,基于通用基础模型的训练后方法在代理任务上,尤其是在开源实现中,表现持续不佳。我们发现了根本原因:缺乏强大的代理基础模型迫使模型在训练后同时学习各种代理行为,同时将其与专家演示对齐,从而产生了根本性的优化冲突。为此,我们率先提出将代理持续预训练(Agentic CPT)纳入深度研究代理训练流程,以构建强大的代理基础模型。在此方法的基础上,我们开发了一个名为 AgentFounder 的深度研究代理模型。我们在 10 个基准测试上评估了我们的 AgentFounder-30B,取得了最先进的性能,同时保留了强大的工具使用能力,特别是在 BrowseComp-en 上为 39.9%,在 BrowseComp-zh 上为 43.3%,在 HLE 上为 31.5% 的 Pass@1。
评论

论文作者
论文提交者
Github: https://github.com/Alibaba-NLP/DeepResearch/
博客: https://tongyi-agent.github.io/blog/
arXiv 论文解读 👉 https://arxivexplained.com/papers/scaling-agents-via-continual-pre-training

感谢您分享这篇非常有趣的论文!非常出色的工作!我们之前也进行过类似使用 CPT 进行智能体训练的探索:https://arxiv.org/pdf/2502.06589,并且有一些相似的发现。很高兴看到使用更强大的模型(Qwen 系列)和更多的数据进一步提升了性能。
大型语言模型(LLMs)已发展成为能够自主使用工具和进行多步推理来解决复杂问题的代理系统。然而,基于通用基础模型进行训练后调优的方法在代理任务中,尤其是在开源实现中,表现始终不佳。我们发现了根本原因:缺乏强大的代理基础模型,迫使模型在训练后调优时同时学习各种代理行为,并将其与专家演示对齐,从而产生根本性的优化冲突。为此,我们首次提出将代理持续预训练(Agentic Continual Pre-training,Agentic CPT)纳入深度研究代理的训练流程,以构建强大的代理基础模型。基于此方法,我们开发了一个名为 AgentFounder 的深度研究代理模型。我们在 10 个基准测试上评估了我们的 AgentFounder-30B,并取得了最先进的性能,同时保留了强大的工具使用能力,例如在 BrowseComp-en 上达到 39.9%,在 BrowseComp-zh 上达到 43.3%,以及在 HLE 上 Pass@1 达到 31.5%。