⏶10
强化内外部知识协同推理,用于高效自适应搜索代理
发表
由
Ziyang 提交
作者:
Ziyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu
摘要
检索增强生成(RAG)是减少大型语言模型(LLMs)幻觉的常用策略。虽然强化学习(RL)可以通过激活检索能力使 LLMs 充当搜索代理,但现有方法常常未能充分利用其内部知识。这可能导致冗余检索、潜在的有害知识冲突以及推理延迟增加。为了解决这些限制,迫切需要一个能够辨别最佳检索时机并协同整合参数(内部)知识和检索(外部)知识的高效自适应搜索代理。本文介绍了强化内外知识协同推理代理(IKEA),它能够识别自身的知识边界,优先利用内部知识,仅在内部知识不足时才诉诸外部搜索。这是通过使用一种新颖的知识边界感知奖励函数和知识边界感知训练数据集来实现的。这些设计面向内外知识协同的 RL,旨在激励模型提供准确答案、最大限度地减少不必要的检索,并在自身知识不足时鼓励适当的外部搜索。在多个知识推理任务上的评估表明,IKEA 显著优于基线方法,大幅降低了检索频率,并表现出强大的泛化能力。
检索增强生成(RAG)是减少大语言模型(LLMs)幻觉的一种常用策略。尽管强化学习(RL)可以通过激活检索能力使 LLMs 作为搜索代理,但现有的方法往往未能充分利用其内部知识。这可能导致冗余检索、潜在的有害知识冲突以及推理延迟增加。为了解决这些限制,迫切需要一种高效且自适应的搜索代理,能够识别最佳检索时机并协同整合参数化(内部)知识和检索到的(外部)知识。本文介绍了强化内部-外部知识协同推理代理(Reinforced Internal-External Knowledge Synergistic Reasoning Agent, IKEA),该代理能够识别自身的知识边界并优先利用内部知识,仅在内部知识被认为不足时才诉诸外部搜索。这是通过一种新颖的知识边界感知奖励函数和知识边界感知训练数据集实现的。这些设计旨在实现内部-外部知识协同导向的强化学习,激励模型提供准确答案,最小化不必要的检索,并在自身知识不足时鼓励进行适当的外部搜索。在多个知识推理任务上的评估表明,IKEA 显著优于基线方法,大幅降低了检索频率,并表现出强大的泛化能力。