慢快策略优化:LLM推理的“先重定位,后更新”

发表
Ziyan WangZiyan Wang 提交
作者: Ziyan WangZiyan Wang, WangZheng Wang, Jie Fu, Xingwei Qu, Qi Cheng, Shengpu Tang, Minjia Zhang, Xiaoming Huo

摘要

AI 生成总结
慢速-快速策略优化 (SFPO) 通过提高稳定性、减少回滚并加快收敛速度,在大型语言模型中增强了强化学习训练,与组相对策略优化 (GRPO) 相比。
强化学习 (RL) 已成为增强大型语言模型 (LLM) 推理能力的核心。然而,像 Group Relative Policy Optimization (GRPO) 这样的同策略算法在早期训练中经常面临困境:低质量的 rollout 带来的梯度噪声会导致更新不稳定和探索效率低下。我们提出了 Slow-Fast Policy Optimization (SFPO),一个简单而高效的框架,通过将每一步分解为三个阶段来解决这些局限性:在同一批次上进行内部步骤的短时快速轨迹,一种用于控制离策略漂移的重新定位机制,以及最终的缓慢校正。这种“先重新定位后更新”的设计保持了目标和 rollout 过程不变,使得 SFPO 可以即插即用地与现有的策略梯度流水线兼容。大量的实验表明,SFPO 在稳定性、减少 rollout 数量以及加速推理 RL 训练收敛方面持续获得提升。具体而言,在数学推理基准测试中,SFPO 的平均性能比 GRPO 高出 2.80 个百分点。它还以更少的 4.93 次 rollout 和 4.19 倍的实际运行时间减少,达到了与 GRPO 最佳准确率相当的水平。
查看 arXiv 页面查看 PDF

评论

Ziyan WangZiyan Wang
论文作者
论文提交者

强化学习(RL)已成为增强大型语言模型(LLM)推理能力的核心。然而,像分组相对策略优化(GRPO)这样的同策略算法在早期训练中常常表现不佳:低质量的 rollout 产生的梯度噪声会导致更新不稳定和探索效率低下。我们引入了慢快策略优化(SFPO),一个简单而高效的框架,通过将每一步分解为三个阶段来解决上述限制:在同一批次上进行的内部步骤的短促快速轨迹、一个用于控制离策略漂移的重新定位机制,以及最终的慢速修正。这种“先定位后更新”的设计保留了目标和 rollout 过程不变,使得 SFPO 可以直接插入现有的策略梯度流水线。大量的实验表明,SFPO 在稳定性、减少 rollout 数量和加速推理 RL 训练的收敛性方面持续提升。具体来说,在数学推理基准测试中,它在平均得分上比 GRPO 高出 2.80 个百分点。它还实现了高达 4.93 倍的 rollout 数量减少和 4.19 倍的实际运行时间缩短,以匹配 GRPO 的最佳准确度。

💻 Github: https://github.com/Urheen/SFPO

🌐 网站: https://zkbig.github.io/Slow_Fast_Policy_Optimization.github.io/

📜 ArXiv: https://arxiv.org/abs/2510.04072