⏶7
ΔL归一化:重新思考RLVR中的损失聚合
发表
由
Zhiyuan He 提交
作者: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu
摘要
AI 生成总结
ΔL 归一化通过提供无偏且方差最小的策略损失估计,解决了带有可验证奖励的强化学习中的梯度方差问题。我们提出了 Delta L Normalization,一种简单而有效的损失聚合方法,专为“带有可验证奖励的强化学习”(RLVR) 的动态生成长度特性而设计。最近,RLVR 在提高大型语言模型 (LLM) 的推理能力方面展现了巨大潜力,但一个主要挑战在于训练过程中响应长度的大幅变化,这会导致高梯度方差和不稳定的优化。尽管 GRPO、DAPO 和 Dr. GRPO 等先前方法引入了不同的损失归一化项来解决这个问题,但它们要么产生有偏估计,要么仍然存在高梯度方差。通过理论和经验上分析长度变化对策略损失的影响,我们将问题重新表述为寻找一个最小方差无偏估计量。我们提出的 Delta L Normalization 不仅提供了真实策略损失的无偏估计,而且在理论上最小化了梯度方差。广泛的实验表明,它在不同模型大小、最大长度和任务上始终能取得优异的结果。我们的代码将在 https://github.com/zerolllin/Delta-L-Normalization 上公开。
我们提出了 ∆L Normalization,这是一种简单而有效的损失聚合方法,专门针对强化学习(带可验证奖励)(RLVR) 中动态生成长度的特性。最近,RLVR 在提高大型语言模型 (LLM) 的推理能力方面表现出强大的潜力,但一个主要挑战在于训练期间响应长度的大变异性,这会导致高梯度方差和不稳定的优化。尽管 GRPO、DAPO 和 Dr. GRPO 等先前方法引入了不同的损失归一化项来解决这个问题,但它们要么产生有偏估计,要么仍然遭受高梯度方差。通过理论和经验上分析长度变化对策略损失的影响,我们将问题重新表述为寻找最小方差无偏估计量。我们提出的 ∆L Normalization 不仅提供了真实策略损失的无偏估计,而且在理论上最小化了梯度方差。广泛的实验表明,它在不同模型尺寸、最大长度和任务上始终取得优异结果。我们的代码将在 https://github.com/zerolllin/Delta-L-Normalization 公开。