RLEP:结合经验回放的强化学习,用于大语言模型推理

发表
Hongzhi ZhangHongzhi Zhang 提交
作者: Hongzhi ZhangHongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang, Fuzheng ZhangFuzheng Zhang, Guorui ZhouGuorui Zhou

摘要

针对大型语言模型的强化学习(RL)是一项资源消耗巨大的任务:训练过程可能不稳定,且策略可能会逐渐偏离其预训练权重。我们提出了 RLEP(Reinforcement Learning with Experience rePlay,即“带经验回放的强化学习”),这是一个两阶段框架,它首先收集经过验证的轨迹,然后在后续训练中进行回放。在每个更新步骤中,策略都在一个混合了新生成的推演序列 (rollouts) 和已回放成功案例的小批量 (mini-batches) 数据上进行优化。通过回放高质量样本,RLEP 引导模型避免无效探索,将学习重点放在有前景的推理路径上,最终实现更快的收敛速度和更强的最终性能。在 Qwen2.5-Math-7B 基础模型上,RLEP 仅用显著减少的更新次数便达到了基线的峰值准确率,并最终超越了它,将 AIME-2024 的准确率从 38.2% 提升至 39.9%,AIME-2025 从 19.8% 提升至 22.3%,AMC-2023 从 77.0% 提升至 82.2%。我们的代码、数据集和检查点已在 https://github.com/Kwai-Klear/RLEP 公开发布,以方便复现和进一步研究。
查看 arXiv 页面查看 PDF

评论

Hongzhi ZhangHongzhi Zhang
论文作者
论文提交者

我们最近的研究表明,运用积累的经验可以提升最终性能。关键要点:

  • 一个经过精心调优的 DAPO 基线

  • 通过引入 RLEP 获得了进一步的提升