Don't Waste Mistakes: 利用置信度重加权,从负强化学习组中汲取教训

发表
FengFeng 提交
作者: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe

摘要

AI 生成总结
LENS 通过为错误响应分配置信度相关的奖励来修改 GRPO,从而提高具有可验证奖励的强化学习的效率和性能。
具有可验证奖励的强化学习(RLVR)已成为改进大型语言模型(LLMs)在推理任务上的标准方法,其中群体相对策略优化(GRPO)在实践中被广泛使用。然而,GRPO 在负面群体上浪费了大量计算:在其中没有采样响应是正确的群体,其优势为零,因此没有梯度。我们想知道是否可以在没有额外监督的情况下利用负面群体。从奖励建模的最大似然(MLE)目标开始,我们表明 MLE 梯度等价于修改后的价值函数的策略梯度。该价值函数对不正确的响应添加了置信度加权惩罚,对更自信的错误施加更大的惩罚。我们将其称为带有负样本的似然估计(LENS)。LENS 修改 GRPO,为不正确的生成赋予非零的、依赖于置信度的奖励,从而使负面群体具有信息量,并将以前浪费的样本转换为有用的梯度更新。在 Llama-3.1-8B 和 Qwen-2.5-3B 的 MATH 基准测试上,我们提出的变体一致优于 GRPO 基线,在更难的项目上取得了显著的提升。这些结果证明了一种原则性且实用的方法来“挽救”负面群体,提高 RLVR 的效率和性能。
查看 arXiv 页面查看 PDF

评论

FengFeng
论文提交者

一种利用 GRPO 中负组的新算法。

LEELEE

我一直在思考使用负面(坏)数据……
我喜欢这个