RL-PLUS:通过混合策略优化对抗LLM在强化学习中能力边界崩溃的问题

发表
Ting-En LinTing-En Lin 提交
作者: Yihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li

摘要

可验证奖励强化学习(RLVR)显著提升了大型语言模型(LLM)的复杂推理能力。然而,由于其本质上是on-policy策略,加上LLM巨大的动作空间和稀疏奖励,它难以突破基础LLM固有的能力边界。至关重要的是,RLVR可能导致能力边界崩溃,缩小LLM的问题解决范围。为了解决这个问题,我们提出了RL-PLUS,一种新颖的LLM混合策略优化方法,它将内部探索与外部数据协同,以实现更强的推理能力并超越基础模型的边界。RL-PLUS集成了两个核心组件,即多重重要性采样(Multiple Importance Sampling)以解决外部数据导致的分布不匹配问题,以及基于探索的优势函数(Exploration-Based Advantage Function)以引导模型走向高价值、未探索的推理路径。我们提供了理论分析和大量实验,证明了我们方法的优越性和泛化性。与现有RLVR方法相比,RL-PLUS实现了1)在六个数学推理基准上达到最先进的性能;2)在六个分布外推理任务上表现优异;3)在不同模型家族中持续显著提升,平均相对改进高达69.2%。此外,Pass@k曲线分析表明,RL-PLUS有效解决了能力边界崩溃问题。
查看 arXiv 页面查看 PDF

评论

Ting-En LinTing-En Lin
论文提交者

可验证奖励强化学习(RLVR)显著提升了大型语言模型(LLMs)的复杂推理能力。然而,由于其本质上的在线策略以及LLM巨大的动作空间和稀疏奖励,它难以突破基础LLM固有的能力边界。关键是,RLVR可能导致能力边界崩溃,缩小LLM的问题解决范围。为了解决这个问题,我们提出了RL-PLUS,一种新颖的混合策略优化方法,它通过内部探索与外部数据协同作用,以实现更强的推理能力并超越基础模型的边界。RL-PLUS整合了两个核心组件,即多重重要性采样以解决外部数据导致的分布不匹配问题,以及基于探索的优势函数以引导模型走向高价值、未探索的推理路径。我们提供了理论分析和大量的实验来证明我们方法的优越性和泛化能力。与现有RLVR方法相比,RL-PLUS实现了:1)在六个数学推理基准上达到最先进的性能;2)在六个分布外推理任务上表现更优;3)在不同模型家族中持续显著提升,平均相对改进高达69.2%。此外,对Pass@k曲线的分析表明,RL-PLUS有效地解决了能力边界崩溃问题。