⏶11
Explore to Evolve:通过主动在线探索为深度研究代理扩展进化聚合逻辑
发表
由
WANG Rui 提交
作者: Rui Wang, Ce Zhang, Jun-Yu Ma, Jianshu Zhang, Hongru Wang, Yi Chen, Boyang Xue,
Tianqing Fang, Zhisong Zhang, Hongming Zhang, Haitao Mi, Dong Yu, Kam-Fai Wong
摘要
AI 生成总结
提出了一种名为“探索到进化”(Explore to Evolve)的新范式,通过构建大型数据集和开发基础模型来增强 Web 代理的信息聚合能力,在具有挑战性的基准测试中优于现有模型。深入研究的 Web Agent 不仅能从 Web 环境、文件和多模态输入等各种来源检索信息,更重要的是,它们需要严格分析和聚合知识以进行有见地的研究。然而,现有的开源深度研究 Web Agent 主要侧重于增强 Web Agent 的信息检索能力以定位特定信息,而忽略了信息聚合的基本需求,这将限制它们支持深入研究的能力。我们提出了一种“探索与进化”的范式,以可扩展的方式为 Web Agent 构建可验证的训练数据。从主动的在线探索开始,Agent 通过探索真实的 Web 来获取有根据的信息。利用收集到的证据,Agent 通过选择、组合和优化 12 种高级逻辑类型的操作来自我进化聚合程序,以合成可验证的问答对。从高级指导到具体操作的这种演变,使我们能够可扩展地生成 WebAggregatorQA,一个包含 50K 个网站和 11 个领域中 10K 个样本的数据集。基于开源 Agent 框架 SmolAgents,我们收集了监督式微调轨迹,以开发一系列基础模型 WebAggregator。WebAggregator-8B 的性能与 GPT-4.1 相当,而 32B 变体在 GAIA-text 上比 GPT-4.1 高出 10% 以上,并且接近 Claude-3.7-sonnet。此外,考虑到评估 Web Agent 信息聚合能力的基准可用性有限,我们构建了一个 WebAggregatorQA 的人工标注评估集,作为一个具有挑战性的测试集。在该基准上,Claude-3.7-sonnet 仅获得 28%,GPT-4.1 得分为 25.8%。即使 Agent 能够检索到所有参考信息,它们在 WebAggregatorQA 上仍然表现不佳,这突显了加强 Web Agent 基础信息聚合能力的需求。
项目页面:https://github.com/Tencent/WebAggregator