Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms

发表
Shrey PanditShrey Pandit 提交
作者: Shrey Pandit, Xuan-Phi Nguyen, Yifei Ming, Austin Xu, Jiayu (Mila) WangJiayu Wang, Caiming Xiong, Shafiq Joty

摘要

AI 生成总结
一个双管齐下的数据合成管道生成复杂的问答对,从而能够训练出更有效的基于网络的科研代理,并在工具使用方面具有更高的多样性。
基于 Web 的“深度研究”代理旨在通过与在线工具进行长周期交互来解决复杂的问答任务。 这些任务仍然具有挑战性,因为底层的语言模型通常没有针对长周期推理和探索进行优化。 先前的工作提出了构建指令微调数据集的工作流程,通常利用知识图谱。然而,此类方法通常 缺乏对难度和质量的精细控制,产生了合成数据,无法捕捉长周期推理所需的复杂性。 此外,许多研究通过比较在不同优化方法下训练的模型来混淆数据和训练效果,使得隔离和评估 数据本身有效性变得困难。我们引入了一个双管齐下的数据合成管道,该管道通过逐渐增加任务 的复杂性来生成问答对,直到一个前沿基线 Web 代理失败。基线代理在此过程中扮演多个角 色:尝试回答问题、验证事实准确性、检查替代答案和强制执行过滤。为了评估我们的合成方法 的有效性,我们采用基于从强大 Web 代理蒸馏的受控训练设置。在多个基于 Web 的基准测试上的 实验表明,我们的数据集——尽管规模较小——能够训练出比现有数据集更有效的 Web 代理。 特别是,我们的数据在工具使用操作方面表现出两倍的多样性,这使得在该数据集上训练的模型 能够获得更强的性能,同时避免重复的工具调用行为。
查看 arXiv 页面查看 PDF

评论

Shrey PanditShrey Pandit
论文提交者

该研究提出了一个受控数据合成管道,用于训练处理复杂、多步推理任务的基于 Web 的“深度研究”代理。
它逐步生成问答对,直到基线代理失败,从而确保任务复杂性和事实准确性不断提高。
尽管数据集较小,但与先前的数据集相比,它能够生成更强大的代理,具有更多的工具使用多样性和更好的性能。