WebThinker:赋能大型推理模型以深度研究能力

发表
KABIKABI 提交
作者: Xiaoxi LiXiaoxi Li, Jiajie JinJiajie Jin, KABIGuanting Dong, Hongjin Qian, Yutao ZhuYutao Zhu, YongkangWuYongkang Wu, Ji-Rong WenJi-Rong Wen, Zhicheng DouZhicheng Dou

摘要

大型推理模型(LRMs),如 OpenAI-o1 和 DeepSeek-R1,展示了令人印象深刻的长程推理能力。然而,它们对静态内部知识的依赖限制了它们在复杂、知识密集型任务上的性能,并阻碍了它们生成需要综合多样网络信息的全面研究报告的能力。为了解决这个问题,我们提出了 WebThinker,一个深度研究智能体,它使 LRM 能够在推理过程中自主搜索网络、导航网页和起草研究报告。WebThinker 集成了一个深度网络浏览器模块,使 LRM 在遇到知识空白时能够动态搜索、导航和从网络提取信息。它还采用了一种自主思考-搜索-起草策略,允许模型实时无缝地交织推理、信息收集和报告撰写。为了进一步增强研究工具的利用,我们通过迭代在线直接偏好优化(DPO)引入了基于强化学习(RL)的训练策略。在复杂推理基准测试(GPQA、GAIA、WebWalkerQA、HLE)和科学报告生成任务(Glaive)上的大量实验表明,WebThinker 显著优于现有方法和强大的专有系统。我们的方法增强了 LRM 在复杂场景中的可靠性和适用性,为更强大、更多功能的深度研究系统铺平了道路。代码可在 https://github.com/RUC-NLPIR/WebThinker 获取。
查看 arXiv 页面查看 PDF

评论

KABIKABI
论文作者
论文提交者
引言

我们提出了 WebThinker,这是一个深度研究代理,它赋予大型推理模型(LRMs)在推理过程中自主搜索网络、浏览网页和起草研究报告的能力。WebThinker 集成了深度网络探索模块,使大型推理模型在遇到知识空白时能够动态地搜索、浏览和提取网络信息。它还采用了自主思考-搜索-起草策略,允许模型在实时操作中无缝地交织推理、信息收集和报告撰写。为了进一步增强研究工具的利用,我们通过迭代在线直接偏好优化(DPO)引入了一种基于强化学习的训练策略。在复杂推理基准(GPQA、GAIA、WebWalkerQA、HLE)和科学报告生成任务(Glaive)上进行的广泛实验表明,WebThinker 显著优于现有方法和强大的专有系统。我们的方法增强了大型推理模型在复杂场景中的可靠性和适用性,为构建更强大、更通用的深度研究系统铺平了道路。

演示:

https://cdn-uploads.huggingface.co/production/uploads/61cd4b833dd34ba1985e0753/BfTCgpvWt_8rxSXtn-PcC.mp4

主要结果概述:

image.png

我们的 WebThinker 框架:

image.png