⏶5
R1-Searcher++:通过强化学习激励大型语言模型(LLMs)的动态知识获取
发表
由
Yingqian Min 提交
作者: Huatong Song, Jinhao Jiang, Wenqing Tian, Zhipeng Chen, Yuhuan Wu, Jiahao Zhao,
Yingqian Min, Wayne Xin Zhao, Lei Fang, Ji-Rong Wen
摘要
大语言模型 (LLM) 功能强大,但由于知识静态而容易产生幻觉。检索增强生成 (RAG) 通过注入外部信息提供帮助,但现有方法通常成本高昂、泛化性差或忽视模型的内部知识。在本文中,我们介绍了 R1-Searcher++,这是一个新颖的框架,旨在训练 LLM 自适应地利用内部和外部知识源。R1-Searcher++ 采用两阶段训练策略:先进行初始 SFT 冷启动阶段以进行初步格式学习,然后进行 RL 以进行动态知识获取。RL 阶段利用结果监督鼓励探索,纳入内部知识利用的奖励机制,并整合记忆机制以持续吸收检索到的信息,从而丰富模型的内部知识。通过利用内部知识和外部搜索引擎,模型不断提升自身能力,实现高效的检索增强推理。我们的实验表明,R1-Searcher++ 优于先前的 RAG 和推理方法,并实现了高效的检索。代码可在 https://github.com/RUCAIBox/R1-Searcher-plus 获取。
一个新颖的框架,使大型语言模型(LLM)能够自适应地利用内部知识(预训练模型知识)和外部知识(检索到的信息)。