用于推理语言模型的强化学习熵机制

发表
Ganqu CuiGanqu Cui 提交
作者: Ganqu CuiGanqu Cui, Yuchen ZhangYuchen Zhang, JiachengChenJiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin ZuoYuxin Zuo, Li HaozhanHaozhan Li, Yuchen FanYuchen Fan, Huayu Chen, Weize Chen, Zhiyuan LiuZhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu ChengYu Cheng, Bowen Zhou, Ning DingNing Ding

摘要

本文旨在克服在利用 LLMs 进行推理的 RL 扩展中的一个主要障碍,即策略熵的坍塌。这种现象在没有熵干预的大量 RL 运行中始终观察到,其中策略熵在早期训练阶段急剧下降,这种探索能力的减弱总是伴随着策略性能的饱和。实践中,我们在熵 H 和下游性能 R 之间建立了一个转换方程 R=-a*e^H+b。这个经验定律强烈表明,策略性能是以策略熵为代价换取的,因此受其耗尽所限,其上限完全可以预测:H=0, R=-a+b。我们的发现表明,为了扩展用于 RL 的计算,必须进行熵管理以实现持续探索。为此,我们从理论和经验上研究了熵动态。我们的推导强调,策略熵的变化是由动作概率和 logit 变化之间的协方差驱动的,在使用类似策略梯度算法时,这与优势成正比。经验研究表明,协方差项的值与熵差完全匹配,支持了理论结论。此外,协方差项在整个训练过程中大多保持正值,进一步解释了为什么策略熵会单调下降。通过理解熵动态背后的机制,我们通过限制高协方差 token 的更新来控制熵。具体来说,我们提出了两种简单而有效的技术,即 Clip-Cov 和 KL-Cov,它们分别对高协方差 token 进行剪裁和应用 KL 惩罚。实验表明,这些方法鼓励探索,从而帮助策略逃离熵坍塌并获得更好的下游性能。
查看 arXiv 页面查看 PDF

评论

Ganqu CuiGanqu Cui
论文作者
论文提交者

我们研究了用于 LLM 推理的 RL 的熵机制