⏶43
WebThinker:赋能大型推理模型以深度研究能力
发表
由
KABI 提交

作者:
Xiaoxi Li,
Jiajie Jin,
Guanting Dong, Hongjin Qian,
Yutao Zhu,
Yongkang Wu,
Ji-Rong Wen,
Zhicheng Dou


摘要
大型推理模型(LRMs),如 OpenAI-o1 和 DeepSeek-R1,展示了令人印象深刻的长程推理能力。然而,它们对静态内部知识的依赖限制了它们在复杂、知识密集型任务上的性能,并阻碍了它们生成需要综合多样网络信息的全面研究报告的能力。为了解决这个问题,我们提出了 WebThinker,一个深度研究智能体,它使 LRM 能够在推理过程中自主搜索网络、导航网页和起草研究报告。WebThinker 集成了一个深度网络浏览器模块,使 LRM 在遇到知识空白时能够动态搜索、导航和从网络提取信息。它还采用了一种自主思考-搜索-起草策略,允许模型实时无缝地交织推理、信息收集和报告撰写。为了进一步增强研究工具的利用,我们通过迭代在线直接偏好优化(DPO)引入了基于强化学习(RL)的训练策略。在复杂推理基准测试(GPQA、GAIA、WebWalkerQA、HLE)和科学报告生成任务(Glaive)上的大量实验表明,WebThinker 显著优于现有方法和强大的专有系统。我们的方法增强了 LRM 在复杂场景中的可靠性和适用性,为更强大、更多功能的深度研究系统铺平了道路。代码可在 https://github.com/RUC-NLPIR/WebThinker 获取。
我们提出了 WebThinker,这是一个深度研究代理,它赋予大型推理模型(LRMs)在推理过程中自主搜索网络、浏览网页和起草研究报告的能力。WebThinker 集成了深度网络探索模块,使大型推理模型在遇到知识空白时能够动态地搜索、浏览和提取网络信息。它还采用了自主思考-搜索-起草策略,允许模型在实时操作中无缝地交织推理、信息收集和报告撰写。为了进一步增强研究工具的利用,我们通过迭代在线直接偏好优化(DPO)引入了一种基于强化学习的训练策略。在复杂推理基准(GPQA、GAIA、WebWalkerQA、HLE)和科学报告生成任务(Glaive)上进行的广泛实验表明,WebThinker 显著优于现有方法和强大的专有系统。我们的方法增强了大型推理模型在复杂场景中的可靠性和适用性,为构建更强大、更通用的深度研究系统铺平了道路。
https://cdn-uploads.huggingface.co/production/uploads/61cd4b833dd34ba1985e0753/BfTCgpvWt_8rxSXtn-PcC.mp4