EDGE-GRPO:基于熵驱动的GRPO及引导式误差校正,实现优势多样性

发表
Zhang XingjianZhang Xingjian 提交
作者: Zhang XingjianXingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang

摘要

大型语言模型(LLMs)在通过强化学习增强逐步推理方面取得了显著进展。然而,依赖于稀疏奖励规则的群体相对策略优化(GRPO)算法,经常遇到组内奖励相同的问题,导致优势坍塌问题。现有的研究通常从两个角度解决这个问题:强制模型反思以增强响应多样性,以及引入内部反馈以增强训练信号(优势)。在这项工作中,我们首先分析了模型反思的局限性,并研究了细粒度样本级别的响应策略熵。基于我们的实验结果,我们提出了EDGE-GRPO算法,该算法采用熵驱动的优势和引导式错误纠正,以有效缓解优势坍塌问题。在几个主要的推理基准上的大量实验证明了我们方法的有效性和优越性。代码可在https://github.com/ZhangXJ199/EDGE-GRPO上获取。
查看 arXiv 页面查看 PDF

评论

Zhang XingjianZhang Xingjian
论文作者
论文提交者

代码可在 https://github.com/ZhangXJ199/EDGE-GRPO 获取。