学习强化学习无法做到的:针对最难问题的交错在线微调

发表
马路马路 提交
作者: 马路Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Bin Cui, Wentao Zhang

摘要

大语言模型 (LLM) 推理领域的最新进展表明,通过强化学习 (RL) 可以涌现出规划和自我反思等复杂行为。然而,尽管取得了这些成功,但当前形式的RL仍然不足以诱导超出基础模型限制的能力,因为它主要基于模型的现有知识进行优化,而不是促进新信息的获取。为了解决这一限制,我们采用监督微调 (SFT) 来学习RL无法学习的内容,通过利用高质量的演示数据,从而能够融入新的知识和推理模式。我们分析了RL和SFT在LLM推理中的训练动态,发现RL擅长在模型原始能力范围内的问题上保持和提升性能,而SFT在使模型在超出当前范围的问题上取得进展方面更有效。受RL和SFT互补优势的启发,我们引入了一种新颖的训练方法:ReLIFT (强化学习与在线微调交替进行)。在ReLIFT中,模型主要使用RL进行训练,但当遇到具有挑战性的问题时,会收集高质量的解决方案进行微调,并且训练过程在RL和微调之间交替进行,以增强模型的推理能力。与其它零RL模型相比,ReLIFT在五个竞赛级别基准和一个分布外基准上平均提高了超过+5.2个点。此外,我们证明ReLIFT在使用仅13%的详细演示数据的情况下,性能优于RL和SFT,突显了其可扩展性。这些结果提供了令人信服的证据,表明ReLIFT克服了RL的根本局限性,并强调了其巨大的潜力。
查看 arXiv 页面查看 PDF
学习强化学习无法做到的:针对最难问题的交错在线微调

评论

马路马路
论文作者
论文提交者

宣传我们的最新工作!

本文主要关注如何克服强化学习(RL)的固有局限性,并开发新的训练范式。我们在这项工作中进行了初步探索,并将继续推进这项研究。所有代码和模型均已完全开源!

近年来,大型语言模型(LLMs)在推理能力方面取得了显著进展,这在很大程度上要归功于RLHF(基于人类反馈的强化学习)。然而,现有的RL方法本质上是“分布内优化器”——它们主要提升模型在现有知识范围内的性能,使其难以超越基础模型的能力上限。因此,RL难以促进新知识的获取和高阶推理技能的发展。

监督微调(SFT)在LLMs中被广泛用于通过高质量的示范数据引入新知识和推理模式。SFT在改进模型超出其原始能力范围的问题上的性能方面特别有效,尤其对于较小的模型。然而,SFT严重依赖高质量的示范数据,并且在分布外(OOD)泛化方面通常不如RL。RL和SFT各自的优势和劣势启发了一个重要的研究方向:如何有效地结合这两种方法,以增强推理和泛化能力,同时减少对昂贵示范数据的依赖,从而突破现有认知瓶颈。

在这项工作中,我们系统地分析了RL和SFT在训练过程中的动态行为。我们的实验表明,RL擅长在模型现有能力范围内巩固和提高性能,而SFT在推动解决更具挑战性的问题方面更有效。值得注意的是,SFT可能导致在简单问题上性能下降,并倾向于生成更冗长的答案,而RL在解决困难问题方面的改进有限。基于这些发现,我们提出了一种新的训练方法——ReLIFT(强化学习与在线微调交错进行)。在RL训练过程中,ReLIFT动态收集模型难以解决的难题,为这些案例获取高质量的思维链(CoT)示范,并交替进行RL和SFT训练,以充分利用它们的互补优势。

在五个数学基准和一个分布外基准上的实验表明,ReLIFT在Qwen2.5-Math-7B模型上达到了51.1%的SOTA(最新技术水平)准确率,比最强的零RL基线提高了5.2个百分点。此外,ReLIFT仅需要13%的详细示范数据就能超越纯RL和纯SFT方法,并且显著缩短了生成答案的长度(约为SFT的十分之一),极大地提高了推理效率和实用性。此外,即使在更小、更弱的基础模型上,ReLIFT也表现出卓越的泛化能力和稳定性。

总之,ReLIFT有效地克服了RL的根本局限性,提供了效率、可扩展性和强大的泛化能力。它为大型语言模型推理能力的持续发展提供了新的见解和证据。

我们的最终目标是设计一个数据引擎,其中数据标注和模型优化同时进行,不断突破模型能力的边界!