⏶7
ReDit:通过奖励抖动改进大语言模型策略优化
发表
由
Chenxing Wei 提交
作者: Chenxing Wei, Jiarui Yu, Ying Tiffany He, Hande Dong, Yao Shu, Fei Yu
摘要
DeepSeek-R1通过其基于规则的奖励系统成功增强了大语言模型(LLM)的推理能力。尽管它是一个“完美”的奖励系统,能够有效缓解奖励作弊,但这类奖励函数通常是离散的。我们的实验观察表明,离散奖励可能导致梯度异常、优化不稳定和收敛缓慢。为了解决这个问题,我们提出了ReDit(奖励抖动),这是一种通过添加简单的随机噪声来抖动离散奖励信号的方法。通过这种扰动后的奖励,在整个学习过程中持续提供探索性梯度,从而实现更平滑的梯度更新并加速收敛。注入的噪声还在平坦奖励区域引入随机性,鼓励模型探索新策略并逃离局部最优。在不同任务上的实验证明了ReDit的有效性和效率。平均而言,ReDit仅用大约10%的训练步数就能达到与普通GRPO相当的性能,并且在相似的训练时长下,其性能仍比普通GRPO提升4%。可视化结果证实ReDit显著缓解了梯度问题。此外,还提供了理论分析来进一步验证这些优势。

https://github.com/kithib/ReDit