WebShaper:通过信息寻求形式化实现智能体驱动的数据合成

发表
Jialong WuJialong Wu 提交
作者: Zhengwei Tao, Jialong WuJialong Wu, Wenbiao YinWenbiao Yin, Junkai Zhang, Baixuan LiBaixuan Li, Shen HaiYangHaiyang Shen, Kuan Li, Liwen Zhang, Xinyu WangXinyu Wang, Yong Jiang, pengjun xiePengjun Xie, Fei Huang, ZhouJingren Zhou

摘要

大型语言模型(LLM)驱动的智能体的出现,通过其基于网络的**信息搜索**(IS)能力,使解决复杂的开放式任务成为可能,从而彻底改变了人工智能。高质量训练数据的稀缺性限制了IS智能体的开发。现有方法通常采用信息驱动范式,即首先收集网络数据,然后根据检索生成问题。然而,这可能导致信息结构与推理结构、问题与答案之间存在不一致。为了缓解这一问题,我们提出了一个形式化驱动的IS数据合成框架WebShaper来构建数据集。WebShaper通过集合论系统地形式化IS任务。形式化的核心是知识投影(KP)的概念,它通过KP操作组合实现对推理结构的精确控制。在合成过程中,我们首先创建种子任务,然后采用多步扩展过程。在每一步中,一个智能体式的扩展器(Expander)根据我们的形式化,利用检索和验证工具,将当前的正式问题扩展得更复杂。我们在合成数据集上训练了我们的模型。实验结果表明,WebShaper在GAIA和WebWalkerQA基准测试中,在开源IS智能体中取得了最先进的性能。
查看 arXiv 页面查看 PDF

评论

Jialong WuJialong Wu
论文作者
论文提交者

大型语言模型(LLM)驱动的代理的出现,通过基于网络的“信息检索(IS)”能力,彻底改变了人工智能,使其能够解决复杂的、开放式的任务。然而,高质量训练数据的稀缺性限制了IS代理的开发。现有方法通常采用信息驱动范式,即首先收集网络数据,然后根据检索生成问题。但这可能导致信息结构与推理结构、问题与答案之间存在不一致。为了解决这个问题,我们提出了一种形式化驱动的IS数据合成框架——WebShaper,用于构建数据集。WebShaper通过集合论系统地形式化了IS任务。形式化的核心是“知识投影(KP)”的概念,它通过KP操作组合实现了对推理结构的精确控制。在合成过程中,我们首先创建种子任务,然后使用多步扩展过程。在每一步中,一个代理式扩展器(Expander)根据我们的形式化,利用检索和验证工具,将当前的正式问题扩展得更复杂。我们在合成的数据集上训练了我们的模型。实验结果表明,WebShaper在GAIA和WebWalkerQA基准测试中,在开源IS代理中取得了最先进的性能。

Jialong WuJialong Wu
论文作者
论文提交者

我们在GAIA (60.19) 和 WebWalkerQA (52.50) 基准测试中取得了新的最先进结果。

截屏2025-07-22 11.08.36.png

WebShaper 是一个用于训练信息检索代理的数据集。我们在 HuggingFaceModelScope 上发布了 500 对问答。

Jialong WuJialong Wu
论文作者
论文提交者

更多详情请访问 https://github.com/Alibaba-NLP/WebAgent。