BroRL:通过广义探索实现强化学习的扩展

发表
Shizhe DiaoShizhe Diao 提交
作者: Jian Hu, Mingjie Liu, Ximing Lu, Fang Wu, Zaid Harchaoui, Shizhe Diao, Yejin Choi, Pavlo Molchanov, Jun Yang, Jan Kautz, Yi Dong

摘要

AI 生成总结
BroRL 通过增加每个示例的回滚次数来增强强化学习,克服了性能瓶颈,并在大型语言模型中取得了最先进的结果。
带可验证奖励的强化学习(RLVR)已成为解锁大型语言模型复杂 推理能力的关键要素。最近的 ProRL 工作通过增加训练步数来扩展 RL 显示出了希望。然而,性能在数千步后会趋于平稳,将更多计算分配给 额外训练的收益递减明显。在这项工作中,我们研究了一种扩展 RL 的 互补范式,BroR-L,即将每个样本的滚动次数增加到数百次,以详尽地 拓宽探索范围,这在 ProRL 扩展训练步数后饱和点之外产生了持续的性 能提升。我们的方法源于质量守恒方程分析,该分析使我们能够描述强 化过程中正确和错误 token 概率质量变化率。我们证明,在单步 RL 假设 下,采样的滚动 token 始终有助于正确质量的扩展,而滚动之外未采样的 token 可能根据其分布和净奖励余额带来增益或损失。重要的是,随着每 个样本的滚动次数 N 的增加,未采样项的影响会减小,从而确保了整体 正确质量的扩展。为了验证我们的理论分析,我们在更宽松的条件下进行 了模拟,发现足够大的滚动次数 N(对应于充分的探索)保证了所有正确 token 概率质量的增加。在经验上,BroRL 能够复苏在 3K ProRL 训练步后 饱和的模型,并展现出稳健、持续的改进,在各种基准测试中为 1.5B 模型 取得了最先进的结果。
查看 arXiv 页面查看 PDF

评论

Shizhe DiaoShizhe Diao
论文提交者

BroRL:通过广泛探索扩展强化学习