组序列策略优化

发表
Chujie ZhengChujie Zheng 提交
作者: Chujie ZhengChujie Zheng, Shixuan LiuShixuan Liu, Mingze Li, Xiong-Hui ChenXiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An YangAn Yang, Jingren Zhou, Junyang Lin

摘要

AI 生成总结
组序列策略优化 (GSPO) 是一种强化学习算法,通过使用序列级重要性比率和操作,提高了大型语言模型的训练效率和性能。
本文介绍了组序列策略优化 (GSPO),这是我们用于训练大型语言模型的稳定、高效、性能卓越的强化学习算法。与以往采用词元级重要性比率的算法不同,GSPO 基于序列似然定义重要性比率,并进行序列级的裁剪、奖励和优化。我们证明 GSPO 相比 GRPO 算法实现了卓越的训练效率和性能,显著稳定了专家混合 (MoE) 强化学习训练,并且有望简化强化学习基础设施的设计。GSPO 的这些优点促成了最新 Qwen3 模型中的显著改进。
查看 arXiv 页面查看 PDF

评论

Chujie ZhengChujie Zheng
论文作者
论文提交者

本文介绍了群组序列策略优化 (GSPO),这是一种稳定、高效且性能卓越的强化学习算法,用于训练最新的Qwen3模型(Instruct、Coder和Thinking)

Anderson ChavesAnderson Chaves

太棒了!

Elie BakouchElie Bakouch

太棒了 🔥

Samuel AzranSamuel Azran

有没有开源实现?

Yingda ChenYingda Chen

> 有任何开源实现吗?

https://github.com/modelscope/ms-swift/pull/5126

Sergio PaniegoSergio Paniego

它已经是最新 TRL 版本的一部分了!https://github.com/huggingface/trl/releases/tag/v0.20.0

Chujie ZhengChujie Zheng
论文作者
论文提交者

GSPO 已在 veRL 中得到支持:https://github.com/volcengine/verl/pull/2775

longlong

为了解决令牌级重要性采样中的高方差问题以及GSPO序列级方法中的信息丢失,我提出了一种子序列级裁剪重要性采样方法。对于序列
$$ a = (a1, \dots, aT) $$
将其分为K个子序列,权重计算如下:
$$\rho{\text{sub}, k} = \text{clip}\left( \frac{\pi{\theta}(a{\text{sub}, k} | s)}{\pi{\theta{\text{old}}}(a{\text{sub}, k} | s)}, 1-\epsilon, 1+\epsilon \right), \quad \rho = \prod{k=1}^K \rho{\text{sub}, k}$$
添加信任区域约束:
$$ \mathbb{E}s [D{\text{KL}}(\pi{\theta{\text{old}}} || \pi_{\theta})] \leq \delta $$
这通过限制乘积项来减少方差,通过子序列粒度保留局部信息,并通过裁剪和KL约束确保稳定性,在灵活性和效率方面优于GSPO。

M Saad SalmanM Saad Salman
此评论已隐藏。
ytaewonytaewon

太棒了!

Shuibai ZhangShuibai Zhang

感谢您的出色工作!我可以问一下您是否计划发布 verl 代码来实现 GSPO 吗?

Chujie ZhengChujie Zheng
论文作者
论文提交者

https://github.com/volcengine/verl/pull/2775

Shuibai ZhangShuibai Zhang

非常感谢您的及时回复!非常有帮助!