Fathom-DeepResearch:解锁长时域信息检索和 SLM 的综合利用

发表
Kunal SinghKunal Singh 提交
作者: Shreyas SinghShreyas Singh, Kunal SinghKunal Singh, Pradeep Moturi

摘要

AI 生成总结
Fathom-DeepResearch,一个拥有专门用于网络搜索和报告合成的模型的代理系统,在开放式信息查询任务和多样化推理任务上取得了最先进的性能。
工具集成推理已成为实现代理式应用的关键焦点。其中,DeepResearch Agents 在处理复杂、开放式信息检索任务方面表现出色,获得了广泛关注。我们引入 Fathom-DeepResearch,这是一个由两个专用模型组成的代理式系统。第一个模型是 Fathom-Search-4B,一个基于 Qwen3-4B 训练的 DeepSearch 模型,通过实时网络搜索和定向网页查询进行基于证据的调查。其训练结合了三项进展:(i) DUETQA,一个通过多智能体自我博弈生成的 5K 样本数据集,强制执行严格的网络搜索依赖和异构源的接地;(ii) RAPO,GRPO 的零开销扩展,通过课程剪枝、奖励感知优势缩放和每个提示的重放缓冲区,稳定了具有可验证奖励的多轮强化学习;(iii) 一个可控的步进级别奖励,根据认知行为和边际效用对每个工具调用进行分类,从而实现对搜索轨迹的广度、深度和范围的显式控制。这些改进使得在有必要的情况下,工具调用能够可靠地扩展到 20 次以上。第二个模型是 Fathom-Synthesizer-4B,基于 Qwen3-4B 训练,它将多轮 DeepSearch 轨迹转换为结构化、引用密集的 DeepResearch 报告,以进行全面的综合。该系统在 DeepSearch 基准测试(SimpleQA、FRAMES、WebWalker、Seal0、MuSiQue)和 DeepResearch-Bench 上进行评估,在开放权重类别中取得了最先进的性能,同时在 HLE、AIME-25、GPQA-Diamond 和 MedQA 等各种推理任务上表现出强大的泛化能力。
查看 arXiv 页面查看 PDF

评论

Kunal SinghKunal Singh
论文作者
论文提交者

我们提出了 Fathom-DeepResearch,这是一个智能系统,通过两个专门的 4B 模型弥合了开源深度研究能力的严峻不足:Fathom-Search-4B 用于多轮网络搜索和推理,Fathom-Synthesizer-4B 用于结构化报告合成。

我们将开源一切 ->
模型权重、研究报告、训练配方和数据!

🤗Fathom-Search-4B: https://huggingface.co/FractalAIResearch/Fathom-Search-4B

📜 研究论文: https://huggingface.co/papers/2509.24107