开放数据综合与深度研究

发表
Ziyi XiaZiyi Xia 提交
作者: Ziyi XiaZiyi Xia, Kun Luo, Hongjin Qian, Zheng Liu

摘要

人们越来越期望大型语言模型(LLMs)能够超越简单的 事实性查询,转向需要将问题分解为子问题、协调多步推理以及综合来自 不同来源的证据的深度研究任务。我们将具有可验证答案的深度研究任务 形式化为分层约束满足问题(HCSPs),这与单约束、多跳或扁平化 CSP 的表述方式根本不同。然而,现有的基准(例如,Natural Questions、HotpotQA) 未能捕捉到这种复杂性,而最近的合成数据集常常引入捷径推理、知识泄露 或缺乏足够的结构深度。为了弥补这一差距,我们引入了 InfoSeek,一个用于 合成复杂深度研究任务的可扩展框架。InfoSeek 使用双代理系统,从大规模 网页中递归构建研究树,将中间节点模糊化为有效的子问题,并将这些树 转换为需要遍历完整层级结构的自然语言问题。它还实现了快速扩展,产出了 超过 50,000 个训练示例、一个精选的测试集以及通过拒绝采样生成的推理轨迹。 实验表明,在 InfoSeek 上训练的模型持续优于强大的基线模型。在一个 具有挑战性的 BrowseComp-Plus 基准测试中,通过 InfoSeek 优化的 3B LLM 超越了规模大得多的 32B 模型和轻量级商业 API(例如,Gemini2.5-Flash), 同时取得了与更强大的 API(例如,Gemini2.5-Pro)相当的性能。 通过保留中间步骤和检索标签等元信息,InfoSeek 进一步支持了高级优化策略, 包括复合奖励设计和轨迹级探索。我们提供了我们的代码和数据集在 https://github.com/VectorSpaceLab/InfoSeek{此仓库}。
查看 arXiv 页面查看 PDF

评论

Ziyi XiaZiyi Xia
论文作者
论文提交者

https://github.com/VectorSpaceLab/InfoSeek

Adina YakefuAdina Yakefu

嗨 @ZiyiXia - 谢谢分享!如果你能用你的HF账号认领这篇论文就太好了,你可以直接点击页面上的你的名字来完成。🤗