⏶17
s3: 通过强化学习训练一个搜索智能体,你不需要那么多数据
发表
由
Patrick Jiang 提交
作者:
Pengcheng Jiang,
Xueqiang Xu, Jiacheng Lin, Jinfeng Xiao, Zifeng Wang, Jimeng Sun, Jiawei Han
摘要
检索增强生成 (RAG) 系统使大型语言模型 (LLMs) 能够在推理过程中访问外部知识。最近的进展使得 LLMs 能够通过强化学习 (RL) 充当搜索代理,通过与检索引擎的多轮交互来改进信息获取。然而,现有方法要么使用忽略下游效用的纯搜索指标(例如 NDCG)来优化检索,要么微调整个 LLM 以联合进行推理和检索——这将检索与生成纠缠在一起,并限制了实际的搜索效用以及与冻结或专有模型的兼容性。在这项工作中,我们提出了 s3,这是一种轻量级、模型无关的框架,它将搜索器与生成器解耦,并使用“超越 RAG 增益”奖励来训练搜索器:即相对于朴素 RAG 在生成精度方面的提升。s3 仅需要 2.4k 个训练样本,即可胜过使用多 70 倍以上数据训练的基线模型,并在六个通用问答和五个医学问答基准测试中持续提供更强的下游性能。
你不需要那么多数据来训练搜索智能体!
一个以搜索者为中心的训练框架就足够了。
总体性能: