⏶17
BroRL:通过广义探索实现强化学习的扩展
发表
由
Shizhe Diao 提交
作者: Jian Hu, Mingjie Liu, Ximing Lu, Fang Wu, Zaid Harchaoui, Shizhe Diao, Yejin Choi, Pavlo Molchanov, Jun Yang, Jan Kautz, Yi Dong
摘要
AI 生成总结
BroRL 通过增加每个示例的回滚次数来增强强化学习,克服了性能瓶颈,并在大型语言模型中取得了最先进的结果。带可验证奖励的强化学习(RLVR)已成为解锁大型语言模型复杂
推理能力的关键要素。最近的 ProRL 工作通过增加训练步数来扩展 RL
显示出了希望。然而,性能在数千步后会趋于平稳,将更多计算分配给
额外训练的收益递减明显。在这项工作中,我们研究了一种扩展 RL 的
互补范式,BroR-L,即将每个样本的滚动次数增加到数百次,以详尽地
拓宽探索范围,这在 ProRL 扩展训练步数后饱和点之外产生了持续的性
能提升。我们的方法源于质量守恒方程分析,该分析使我们能够描述强
化过程中正确和错误 token 概率质量变化率。我们证明,在单步 RL 假设
下,采样的滚动 token 始终有助于正确质量的扩展,而滚动之外未采样的
token 可能根据其分布和净奖励余额带来增益或损失。重要的是,随着每
个样本的滚动次数 N 的增加,未采样项的影响会减小,从而确保了整体
正确质量的扩展。为了验证我们的理论分析,我们在更宽松的条件下进行
了模拟,发现足够大的滚动次数 N(对应于充分的探索)保证了所有正确
token 概率质量的增加。在经验上,BroRL 能够复苏在 3K ProRL 训练步后
饱和的模型,并展现出稳健、持续的改进,在各种基准测试中为 1.5B 模型
取得了最先进的结果。
BroRL:通过广泛探索扩展强化学习