SSRL: 自搜索强化学习

发表
Yuchen FanYuchen Fan 提交
作者: Yuchen FanYuchen Fan, Kaiyan ZhangKaiyan Zhang, Zhou HengHeng Zhou, Yuxin Zuo, Yanxu Chen, Yu Fu, Xinwei Long, Xuekai Zhu, Che Jiang, Yuchen ZhangYuchen Zhang, Li Kang, Gang Chen, Cheng Huang, Zhizhou He, Bingning Wang, Lei Bai, Ning Ding, Bowen Zhou

摘要

我们研究了大型语言模型 (LLM) 在强化学习 (RL) 中作为代理搜索任务的有效模拟器方面的潜力,从而减少对与外部搜索引擎进行昂贵交互的依赖。为此,我们首先通过结构化提示和重复采样来量化 LLM 的内在搜索能力,我们称之为“自搜索”。我们的结果表明,LLM 在推理预算方面表现出强大的扩展行为,在问答基准测试(包括具有挑战性的 BrowseComp 任务)中实现了高 pass@k。基于这些观察,我们引入了自搜索 RL (SSRL),它通过基于格式和基于规则的奖励增强了 LLM 的自搜索能力。SSRL 使模型能够内部迭代地完善其知识利用,而无需访问外部工具。实证评估表明,SSRL 训练的策略模型为搜索驱动的 RL 训练提供了一个经济高效且稳定的环境,减少了对外部搜索引擎的依赖,并促进了稳健的模拟到真实世界的迁移。我们得出以下结论:1) LLM 拥有可以有效挖掘以实现高性能的世界知识;2) SSRL 展示了利用内部知识减少幻觉的潜力;3) SSRL 训练的模型无需额外工作即可与外部搜索引擎无缝集成。我们的研究结果突出了 LLM 支持更具可扩展性的 RL 代理训练的潜力。
查看 arXiv 页面查看 PDF

评论

Yuchen FanYuchen Fan
论文作者
论文提交者

Github: https://github.com/TsinghuaC3I/SSRL

Huggingface: https://huggingface.co/collections/TsinghuaC3I/ssrl

Kaiyan ZhangKaiyan Zhang
论文作者

LLMs 中仍有大量知识等待通过强化学习来启发——也许甚至是一个世界模型?

all.jpg

Grant SingletonGrant Singleton

arXiv 解释了本文的细分 👉 https://arxivexplained.com/papers/ssrl-self-search-reinforcement-learning