低概率 Token 在具有可验证奖励的强化学习中支持探索

发表
Guanhua HuangGuanhua Huang 提交
作者: Guanhua HuangGuanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou

摘要

AI 生成总结
低概率正则化 (Lp-Reg) 通过保留有价值的低概率 token,增强了具有可验证奖励的强化学习 (RLVR) 中的探索,从而在复杂的推理任务中提高了性能。
带有**可验证奖励的强化学习 (RLVR)** 推动了大型语言模型在复杂推理方面的进步,但其可扩展性往往受到训练瓶颈的阻碍,即随着策略熵的崩溃,性能停滞不前,这标志着探索的损失。以前的方法通常通过维持高策略熵来解决这个问题,但控制有意义探索的精确机制仍然未得到充分研究。我们的分析表明,**不加选择地关注熵**有放大切片不相关令牌并使训练不稳定的风险。本文研究了 RLVR 中的**探索动态**,并发现了一个关键问题:有价值的低概率探索性令牌的**逐渐消除**,我们称之为“**推理火花**”。我们发现,尽管在预训练模型中数量众多,但这些火花在 RLVR 过程中由于**过度惩罚**而被系统地熄灭,导致探索退化。为了解决这个问题,我们引入了**低概率正则化 (Lp-Reg)**。其核心机制是将策略正则化为一个**启发式代理分布**。该代理通过过滤掉假定的噪声令牌并重新归一化剩余候选者上的分布来构建。结果是一个噪声较少的代理,其中推理火花的概率被放大,然后作为**软正则化目标**,通过 KL 散度来保护这些有价值的令牌免于被消除。实验表明,Lp-Reg 能够**稳定地进行约 1,000 步的同策略训练**,而基线熵控制方法在该阶段会崩溃。这种持续的探索带来了**最先进的性能**,在五个数学基准上实现了 60.17% 的平均准确率,比先前方法提高了 2.66%。代码可在 https://github.com/CarlanLark/Lp-Reg 获取。
查看 arXiv 页面查看 PDF

评论