⏶43

WebThinker：赋能大型推理模型以深度研究能力

04月30日发表

05月01日由 KABI 提交

作者: Xiaoxi Li, Jiajie Jin, KABI Guanting Dong, Hongjin Qian, Yutao Zhu, YongkangWu Yongkang Wu, Ji-Rong Wen, Zhicheng Dou

摘要

大型推理模型（LRMs），如 OpenAI-o1 和 DeepSeek-R1，展示了令人印象深刻的长程推理能力。然而，它们对静态内部知识的依赖限制了它们在复杂、知识密集型任务上的性能，并阻碍了它们生成需要综合多样网络信息的全面研究报告的能力。为了解决这个问题，我们提出了 WebThinker，一个深度研究智能体，它使 LRM 能够在推理过程中自主搜索网络、导航网页和起草研究报告。WebThinker 集成了一个深度网络浏览器模块，使 LRM 在遇到知识空白时能够动态搜索、导航和从网络提取信息。它还采用了一种自主思考-搜索-起草策略，允许模型实时无缝地交织推理、信息收集和报告撰写。为了进一步增强研究工具的利用，我们通过迭代在线直接偏好优化（DPO）引入了基于强化学习（RL）的训练策略。在复杂推理基准测试（GPQA、GAIA、WebWalkerQA、HLE）和科学报告生成任务（Glaive）上的大量实验表明，WebThinker 显著优于现有方法和强大的专有系统。我们的方法增强了 LRM 在复杂场景中的可靠性和适用性，为更强大、更多功能的深度研究系统铺平了道路。代码可在 https://github.com/RUC-NLPIR/WebThinker 获取。

查看 arXiv 页面查看 PDF

KABI

论文作者

论文提交者

引言

我们提出了 WebThinker，这是一个深度研究代理，它赋予大型推理模型（LRMs）在推理过程中自主搜索网络、浏览网页和起草研究报告的能力。WebThinker 集成了深度网络探索模块，使大型推理模型在遇到知识空白时能够动态地搜索、浏览和提取网络信息。它还采用了自主思考-搜索-起草策略，允许模型在实时操作中无缝地交织推理、信息收集和报告撰写。为了进一步增强研究工具的利用，我们通过迭代在线直接偏好优化（DPO）引入了一种基于强化学习的训练策略。在复杂推理基准（GPQA、GAIA、WebWalkerQA、HLE）和科学报告生成任务（Glaive）上进行的广泛实验表明，WebThinker 显著优于现有方法和强大的专有系统。我们的方法增强了大型推理模型在复杂场景中的可靠性和适用性，为构建更强大、更通用的深度研究系统铺平了道路。

我们的 Github 仓库：https://github.com/RUC-NLPIR/WebThinker?tab=readme-ov-file

演示：

https://cdn-uploads.huggingface.co/production/uploads/61cd4b833dd34ba1985e0753/BfTCgpvWt_8rxSXtn-PcC.mp4

主要结果概述：

我们的 WebThinker 框架：

WebThinker：赋能大型推理模型以深度研究能力

摘要

评论