⏶3
RLEP:结合经验回放的强化学习,用于大语言模型推理
发表
由
Hongzhi Zhang 提交
作者:
Hongzhi Zhang, Jia Fu, Jingyuan Zhang, Kai Fu, Qi Wang,
Fuzheng Zhang,
Guorui Zhou

摘要
针对大型语言模型的强化学习(RL)是一项资源消耗巨大的任务:训练过程可能不稳定,且策略可能会逐渐偏离其预训练权重。我们提出了 RLEP(Reinforcement Learning with Experience rePlay,即“带经验回放的强化学习”),这是一个两阶段框架,它首先收集经过验证的轨迹,然后在后续训练中进行回放。在每个更新步骤中,策略都在一个混合了新生成的推演序列 (rollouts) 和已回放成功案例的小批量 (mini-batches) 数据上进行优化。通过回放高质量样本,RLEP 引导模型避免无效探索,将学习重点放在有前景的推理路径上,最终实现更快的收敛速度和更强的最终性能。在 Qwen2.5-Math-7B 基础模型上,RLEP 仅用显著减少的更新次数便达到了基线的峰值准确率,并最终超越了它,将 AIME-2024 的准确率从 38.2% 提升至 39.9%,AIME-2025 从 19.8% 提升至 22.3%,AMC-2023 从 77.0% 提升至 82.2%。我们的代码、数据集和检查点已在 https://github.com/Kwai-Klear/RLEP 公开发布,以方便复现和进一步研究。
我们最近的研究表明,运用积累的经验可以提升最终性能。关键要点:
一个经过精心调优的 DAPO 基线
通过引入 RLEP 获得了进一步的提升