单流策略优化

发表
Zhongwen XuZhongwen Xu 提交
作者: Zhongwen XuZhongwen Xu, Zihan Ding

摘要

AI 生成总结
单流策略优化 (SPO) 通过消除基于群体的问题并提供稳定、低方差的学习信号,改进了大型语言模型的策略梯度训练,从而提高了性能和效率。
我们从单一流的角度重新审视了大型语言模型(LLM)的策略梯度优化。像 GRPO 这样的主流群组方法通过即时基线来减少方差,但存在严重缺陷:频繁的退化群组会消除学习信号,同步障碍会阻碍可扩展性。我们引入了单流策略优化(SPO),该方法从设计上消除了这些问题。SPO 用一个持久的、KL 自适应的值跟踪器替换了每组基线,并跨批次全局标准化优势,为每个样本提供了稳定、低方差的学习信号。由于是无群组的,SPO 能够实现更高的吞吐量,并在生成时间变化的长期或工具集成环境中有效扩展。此外,持久的值跟踪器自然支持通过优先采样进行自适应课程学习。使用 Qwen3-8B 进行的实验表明,SPO 的收敛速度更快,并且比 GRPO 具有更高的准确性,同时消除了在退化群组上浪费的计算。消融研究证实,SPO 的优势源于其在基线估计和优势标准化方面的原理性方法,为 LLM 推理提供了更强大、更高效的路径。在 Qwen3 8B 的五个硬数学基准测试中,SPO 将平均 maj@32 比 GRPO 提高了 +3.4 个百分点(pp),这得益于在具有挑战性的数据集上大幅度的绝对点提升,包括在 BRUMO 25 上提高了 +7.3 pp,在 AIME 25 上提高了 +4.4 pp,在 HMMT 25 上提高了 +3.3 pp,并在评估的 k 值上实现了持续的相对 pass@k 增益。SPO 的成功挑战了当前在 RL 算法中增加附带复杂性的趋势,展示了一条由基本原理而非架构的权宜之计推动 LLM 推理下一波进步的道路。
查看 arXiv 页面查看 PDF

评论

Yury PanikovYury Panikov

谢谢