⏶18
DCPO:动态裁剪策略优化
发表
由
Shihui Yang 提交
作者:
Shihui Yang, Chengfeng Dou,
Peidong Guo, Kai Lu,
Qiang Ju, Fei Deng,
Rihui Xin

摘要
来自可验证奖励的强化学习(RLVR)已成为一种有前途的框架,可增强大型语言模型的推理能力。然而,像GRPO这样的现有方法经常遭受零梯度的问题。此问题主要由于令牌级概率比的固定裁剪边界以及相同奖励的标准化所引起,这可能导致梯度更新无效以及生成响应的利用率不足。在这项工作中,我们提出了动态裁剪策略优化(DCPO),它引入了一种动态裁剪策略,该策略根据特定令牌的先验概率自适应地调整裁剪边界,以增强令牌级别的探索;以及一种平滑优势标准化技术,该技术跨累积训练步骤对奖励进行标准化,以提高生成响应的响应级别有效利用率。DCPO在基于四种不同模型的四个基准测试上取得了最先进的性能。特别是,在Qwen2.5-Math-7B模型上,DCPO在AIME24基准测试中实现了贪婪解码下的Avg@1为46.7,32次采样下的Avg@32为38.8,均超过了DAPO(36.7/31.6)和GRPO(36.7/32.1)。在基于Qwen2.5-14B的AIME25基准测试上,DCPO取得了(23.3/19.0)的性能,超过了GRPO(13.3/10.5)和DAPO(20.0/15.3)。此外,DCPO在四个模型上实现了比GRPO高出平均28%的非零优势,比DAPO的训练效率提高了一倍,并显著地将令牌裁剪率比GRPO和DAPO降低了一个数量级,同时实现了更优越的性能。这些结果突显了DCPO在大型语言模型强化学习中更有效地利用生成数据的有效性。

评论
论文作者
论文提交者
来自可验证奖励的强化学习 (RLVR) 已成为增强大型语言模型推理能力的一个有前景的框架。然而,现有的方法如 GRPO 经常会遇到梯度为零的问题。这个问题主要源于固定的 token 级别概率比率的裁剪界限和相同奖励的标准化,这可能导致无效的梯度更新和生成响应的利用不足。在这项工作中,我们提出了动态裁剪策略优化 (DCPO),它引入了一种动态裁剪策略,该策略根据 token 特定的先验概率自适应地调整裁剪界限,以增强 token 级别的探索;以及一种平滑优势标准化技术,该技术在累积训练步骤中对奖励进行标准化,以提高响应级别上生成响应的有效利用。DCPO 在基于四种不同模型的四个基准测试中取得了最先进的性能。特别地,在 AIME24 基准测试上,DCPO 在 Qwen2.5-Math-7B 模型上,采用贪婪解码时达到了 46.7 的 Avg@1,采用 32 次采样时达到了 38.8 的 Avg@32,均超过了 DAPO (36.7/31.6) 和 GRPO (36.7/32.1)。在基于 Qwen2.5-14B 的 AIME25 基准测试上,DCPO 取得了 (23.3/19.0) 的性能,超过了 GRPO (13.3/10.5) 和 DAPO (20.0/15.3)。此外,DCPO 在四种模型上比 GRPO 平均提高了 28% 的非零优势,训练效率是 DAPO 的两倍,并且与 GRPO 和 DAPO 相比,token 裁剪率显著降低了一个数量级,同时实现了卓越的性能。这些结果凸显了 DCPO 在强化学习中更有效地利用生成数据以提升大型语言模型的能力。
code-git:https://github.com/lime-RL/DCPO