⏶3

慢快策略优化：LLM推理的“先重定位，后更新”

10月05日发表

10月07日由 Ziyan Wang 提交

作者: Ziyan Wang, Wang Zheng Wang, Jie Fu, Xingwei Qu, Qi Cheng, Shengpu Tang, Minjia Zhang, Xiaoming Huo

摘要

AI 生成总结

慢速-快速策略优化 (SFPO) 通过提高稳定性、减少回滚并加快收敛速度，在大型语言模型中增强了强化学习训练，与组相对策略优化 (GRPO) 相比。

强化学习 (RL) 已成为增强大型语言模型 (LLM) 推理能力的核心。然而，像 Group Relative Policy Optimization (GRPO) 这样的同策略算法在早期训练中经常面临困境：低质量的 rollout 带来的梯度噪声会导致更新不稳定和探索效率低下。我们提出了 Slow-Fast Policy Optimization (SFPO)，一个简单而高效的框架，通过将每一步分解为三个阶段来解决这些局限性：在同一批次上进行内部步骤的短时快速轨迹，一种用于控制离策略漂移的重新定位机制，以及最终的缓慢校正。这种“先重新定位后更新”的设计保持了目标和 rollout 过程不变，使得 SFPO 可以即插即用地与现有的策略梯度流水线兼容。大量的实验表明，SFPO 在稳定性、减少 rollout 数量以及加速推理 RL 训练收敛方面持续获得提升。具体而言，在数学推理基准测试中，SFPO 的平均性能比 GRPO 高出 2.80 个百分点。它还以更少的 4.93 次 rollout 和 4.19 倍的实际运行时间减少，达到了与 GRPO 最佳准确率相当的水平。

查看 arXiv 页面查看 PDF

Ziyan Wang

论文作者

论文提交者

强化学习（RL）已成为增强大型语言模型（LLM）推理能力的核心。然而，像分组相对策略优化（GRPO）这样的同策略算法在早期训练中常常表现不佳：低质量的 rollout 产生的梯度噪声会导致更新不稳定和探索效率低下。我们引入了慢快策略优化（SFPO），一个简单而高效的框架，通过将每一步分解为三个阶段来解决上述限制：在同一批次上进行的内部步骤的短促快速轨迹、一个用于控制离策略漂移的重新定位机制，以及最终的慢速修正。这种“先定位后更新”的设计保留了目标和 rollout 过程不变，使得 SFPO 可以直接插入现有的策略梯度流水线。大量的实验表明，SFPO 在稳定性、减少 rollout 数量和加速推理 RL 训练的收敛性方面持续提升。具体来说，在数学推理基准测试中，它在平均得分上比 GRPO 高出 2.80 个百分点。它还实现了高达 4.93 倍的 rollout 数量减少和 4.19 倍的实际运行时间缩短，以匹配 GRPO 的最佳准确度。

💻 Github: https://github.com/Urheen/SFPO

🌐 网站: https://zkbig.github.io/Slow_Fast_Policy_Optimization.github.io/

📜 ArXiv: https://arxiv.org/abs/2510.04072

慢快策略优化：LLM推理的“先重定位，后更新”

摘要

评论