⏶66
WebResearcher:释放长视线代理无限的推理能力
发表
由
taesiri 提交

作者: Zile Qiao, Guoxin Chen,
Xuanzhong Chen, Donglei Yu, Wenbiao Yin, Xinyu Wang, Zhen Zhang, Baixuan Li, Huifeng Yin, Kuan Li, Rui Min, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
摘要
AI 生成总结
WebResearcher 是一个深度研究框架,它通过将研究重新表述为马尔可夫决策过程并使用可扩展的数据合成引擎,增强了 AI 智能体的知识合成能力,在所有基准测试中均取得了卓越的性能。深度研究系统方面的最新进展已经证明了 AI 代理从外部来源自主发现和综合知识的潜力。在本文中,我们介绍了 WebResearcher,一个用于构建此类代理的新型框架,它由两个关键组件组成:(1)WebResearcher,一个迭代式深度研究范式,它将深度研究重新表述为马尔可夫决策过程,代理会定期将发现巩固到不断演进的报告中,同时保持专注的工作区,从而克服了现有单上下文方法所面临的上下文窒息和噪声污染问题;(2)WebFrontier,一个可扩展的数据综合引擎,通过工具增强的复杂性升级生成高质量的训练数据,从而能够系统地创建研究任务,弥合被动知识回忆和主动知识构建之间的差距。值得注意的是,我们发现来自我们范式训练的数据即使对于传统的单上下文方法也显著增强了工具使用能力。此外,我们的范式通过并行思维自然扩展,实现了并发多代理探索,以获得更全面的结论。在 6 个具有挑战性的基准测试上进行的广泛实验表明,WebResearcher 取得了最先进的性能,甚至超越了前沿的专有系统。
评论

论文提交者
Github: https://github.com/Alibaba-NLP/DeepResearch
博客: https://tongyi-agent.github.io/blog/
arXiv 解释了这篇论文的详细内容 👉 https://arxivexplained.com/papers/webresearcher-unleashing-unbounded-reasoning-capability-in-long-horizon-agents
深度研究系统最近的进展表明,AI 代理有潜力从外部来源自主发现和综合知识。在这篇论文中,我们介绍了一个用于构建此类代理的全新框架 WebResearcher,它包含两个关键组件:(1)WebResearcher,一个迭代式深度研究范式,它将深度研究重新定义为马尔可夫决策过程,代理会定期将发现的内容整合到不断发展的报告中,同时维护专注的工作区,克服了现有单上下文方法中存在的上下文窒息和噪声污染问题;(2)WebFrontier,一个可扩展的数据合成引擎,通过工具增强的复杂性升级生成高质量的训练数据,从而系统地创建连接被动知识回忆和主动知识构建之间鸿沟的研究任务。值得注意的是,我们发现我们范式中的训练数据显著增强了传统单上下文方法的工具使用能力。此外,我们的范式通过并行思维自然扩展,能够实现并发多代理探索以获得更全面的结论。在 6 个具有挑战性的基准测试上的广泛实验表明,WebResearcher 取得了最先进的性能,甚至超越了前沿的专有系统。