稳定知识,促进推理:用于RLVR的双令牌约束

发表
Runze LiuRunze Liu 提交
作者: Jiakang Wang, Runze LiuRunze Liu, Fuzheng Zhang, Xiu Li, Guorui Zhou

摘要

可验证奖励强化学习(RLVR)已成为一种有效的后训练方法,主要通过塑造反思和规划等高阶行为来提高大型语言模型(LLM)的推理能力。然而,之前的RLVR算法通常对所有token应用统一的训练信号,没有考虑到低熵的知识相关token和高熵的推理相关token的不同作用。一些近期方法试图通过梯度掩码或异步更新来分离这些token类型,但这些方法可能会破坏模型输出中的语义依赖关系并阻碍有效学习。在这项工作中,我们提出了Archer,一种熵感知RLVR方法,具有双token约束和同步更新。具体而言,我们的方法对推理token应用较弱的KL正则化和较高的裁剪阈值以鼓励探索,同时对知识token使用较强的约束以保持事实知识。在多项数学推理和代码生成基准测试上的实验结果表明,我们的方法显著优于先前的RLVR方法,在同等规模的模型中达到或超越了最先进的性能。代码可在https://github.com/wizard-III/ArcherCodeR获取。
查看 arXiv 页面查看 PDF

评论