⏶302
组序列策略优化
发表
由
Chujie Zheng 提交
作者:
Chujie Zheng,
Shixuan Liu, Mingze Li,
Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men,
An Yang, Jingren Zhou, Junyang Lin
摘要
AI 生成总结
组序列策略优化 (GSPO) 是一种强化学习算法,通过使用序列级重要性比率和操作,提高了大型语言模型的训练效率和性能。本文介绍了组序列策略优化 (GSPO),这是我们用于训练大型语言模型的稳定、高效、性能卓越的强化学习算法。与以往采用词元级重要性比率的算法不同,GSPO 基于序列似然定义重要性比率,并进行序列级的裁剪、奖励和优化。我们证明 GSPO 相比 GRPO 算法实现了卓越的训练效率和性能,显著稳定了专家混合 (MoE) 强化学习训练,并且有望简化强化学习基础设施的设计。GSPO 的这些优点促成了最新 Qwen3 模型中的显著改进。
评论
为了解决令牌级重要性采样中的高方差问题以及GSPO序列级方法中的信息丢失,我提出了一种子序列级裁剪重要性采样方法。对于序列
$$ a = (a1, \dots, aT) $$
将其分为K个子序列,权重计算如下:
$$\rho{\text{sub}, k} = \text{clip}\left( \frac{\pi{\theta}(a{\text{sub}, k} | s)}{\pi{\theta{\text{old}}}(a{\text{sub}, k} | s)}, 1-\epsilon, 1+\epsilon \right), \quad \rho = \prod{k=1}^K \rho{\text{sub}, k}$$
添加信任区域约束:
$$ \mathbb{E}s [D{\text{KL}}(\pi{\theta{\text{old}}} || \pi_{\theta})] \leq \delta $$
这通过限制乘积项来减少方差,通过子序列粒度保留局部信息,并通过裁剪和KL约束确保稳定性,在灵活性和效率方面优于GSPO。
本文介绍了群组序列策略优化 (GSPO),这是一种稳定、高效且性能卓越的强化学习算法,用于训练最新的Qwen3模型(Instruct、Coder和Thinking)