ZeroSearch:无需搜索即可激发 LLMs 的搜索能力

发表
GJGJ 提交
作者: hao sunHao Sun, Zile Qiao, GJJiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang

摘要

有效的信息搜索对于增强大型语言模型(LLMs)的推理和生成能力至关重要。最近的研究探索了使用强化学习(RL)通过与现实世界环境中的实时搜索引擎交互来提高LLMs的搜索能力。虽然这些方法显示出可喜的结果,但它们面临两个主要挑战:(1) 不可控的文档质量:搜索引擎返回的文档质量通常不可预测,这会给训练过程带来噪声和不稳定。(2) 过高的API成本:RL训练需要频繁的推理(rollouts),可能涉及数十万次搜索请求,这会产生巨额API费用并严重限制可扩展性。为了应对这些挑战,我们引入了ZeroSearch,这是一个强化学习框架,它在不与真实搜索引擎交互的情况下激励LLMs的搜索能力。我们的方法首先进行轻量级的监督微调,将LLM转化为一个检索模块,该模块能够响应查询生成相关和噪声文档。在RL训练期间,我们采用基于课程的推理策略,逐步降低生成文档的质量,通过让模型接触越来越具挑战性的检索场景来逐步激发其推理能力。广泛的实验表明,ZeroSearch使用一个3B的LLM作为检索模块,有效激励了LLMs的搜索能力。值得注意的是,一个7B的检索模块达到了与真实搜索引擎相当的性能,而一个14B的检索模块甚至超越了它。此外,它在不同参数规模的基础模型和指令微调模型上都具有良好的泛化性,并且兼容多种RL算法。
查看 arXiv 页面查看 PDF

评论

GJGJ
论文作者
论文提交者
此评论已隐藏。
RoeselerRoeseler

非常有趣的论文!交互回合(Interactions Turns)从未超过2次(图2C)是否有原因?

ytaewonytaewon

太棒了!