⏶5
在思考过程中搜索和细化:大型语言模型的自主检索增强推理
发表
由
Yaorui SHI 提交

作者:
Yaorui Shi, Sihang Li, Chang Wu,
Zhiyuan Liu, Junfeng Fang,
Hengxing Cai, An Zhang, Xiang Wang

摘要
大型语言模型已展示出令人印象深刻的推理能力,但其知识储备固有地限制了其能力。检索增强推理通过允许 LLMs 查询外部资源来缓解这一限制,但现有方法通常检索不相关或嘈杂的信息,从而阻碍了准确推理。在本文中,我们提出了 AutoRefine,一个采用新的“思考中搜索和提炼”范式的强化学习训练后框架。AutoRefine 在连续的搜索调用之间引入了明确的知识提炼步骤,使模型能够在生成答案之前迭代地过滤、提炼和组织证据。此外,我们使用组相对策略优化,在答案正确性奖励之外,还纳入了针对检索的奖励。在单跳和多跳问答基准上的实验表明,AutoRefine 显著优于现有方法,尤其是在复杂的多跳推理场景中。详细分析表明,AutoRefine 会频繁地进行高质量的搜索,并有效地合成证据。
大语言模型展现了令人印象深刻的推理能力,但其知识储备本身存在固有限制。检索增强推理通过允许 LLM 查询外部资源来缓解这一限制,但现有方法通常会检索到不相关或嘈杂的信息,从而阻碍了准确的推理。在本文中,我们提出了 AutoRefine,这是一个强化学习后训练框架,它采用了一种新的“思考时搜索和精炼”范式。AutoRefine 在连续的搜索调用之间引入了显式的知识精炼步骤,使模型能够在生成答案之前迭代地过滤、提炼和组织证据。此外,我们使用群组相对策略优化,将定制的检索特定奖励与答案正确性奖励相结合。在单跳和多跳问答基准上的实验表明,AutoRefine 显著优于现有方法,尤其是在复杂的多跳推理场景中。详细分析表明,AutoRefine 进行频繁、高质量的搜索,并有效地合成证据。