⏶30
WebShaper:通过信息寻求形式化实现智能体驱动的数据合成
发表
由
Jialong Wu 提交

作者: Zhengwei Tao,
Jialong Wu,
Wenbiao Yin, Junkai Zhang,
Baixuan Li,
Haiyang Shen, Kuan Li, Liwen Zhang,
Xinyu Wang, Yong Jiang,
Pengjun Xie, Fei Huang,
Jingren Zhou

摘要
大型语言模型(LLM)驱动的智能体的出现,通过其基于网络的**信息搜索**(IS)能力,使解决复杂的开放式任务成为可能,从而彻底改变了人工智能。高质量训练数据的稀缺性限制了IS智能体的开发。现有方法通常采用信息驱动范式,即首先收集网络数据,然后根据检索生成问题。然而,这可能导致信息结构与推理结构、问题与答案之间存在不一致。为了缓解这一问题,我们提出了一个形式化驱动的IS数据合成框架WebShaper来构建数据集。WebShaper通过集合论系统地形式化IS任务。形式化的核心是知识投影(KP)的概念,它通过KP操作组合实现对推理结构的精确控制。在合成过程中,我们首先创建种子任务,然后采用多步扩展过程。在每一步中,一个智能体式的扩展器(Expander)根据我们的形式化,利用检索和验证工具,将当前的正式问题扩展得更复杂。我们在合成数据集上训练了我们的模型。实验结果表明,WebShaper在GAIA和WebWalkerQA基准测试中,在开源IS智能体中取得了最先进的性能。
评论

论文作者
论文提交者
我们在GAIA (60.19) 和 WebWalkerQA (52.50) 基准测试中取得了新的最先进结果。
WebShaper 是一个用于训练信息检索代理的数据集。我们在 HuggingFace 和 ModelScope 上发布了 500 对问答。
大型语言模型(LLM)驱动的代理的出现,通过基于网络的“信息检索(IS)”能力,彻底改变了人工智能,使其能够解决复杂的、开放式的任务。然而,高质量训练数据的稀缺性限制了IS代理的开发。现有方法通常采用信息驱动范式,即首先收集网络数据,然后根据检索生成问题。但这可能导致信息结构与推理结构、问题与答案之间存在不一致。为了解决这个问题,我们提出了一种形式化驱动的IS数据合成框架——WebShaper,用于构建数据集。WebShaper通过集合论系统地形式化了IS任务。形式化的核心是“知识投影(KP)”的概念,它通过KP操作组合实现了对推理结构的精确控制。在合成过程中,我们首先创建种子任务,然后使用多步扩展过程。在每一步中,一个代理式扩展器(Expander)根据我们的形式化,利用检索和验证工具,将当前的正式问题扩展得更复杂。我们在合成的数据集上训练了我们的模型。实验结果表明,WebShaper在GAIA和WebWalkerQA基准测试中,在开源IS代理中取得了最先进的性能。