REASONING GYM:推理环境,用于具备可验证奖励的强化学习

发表
Zafir StojanovskiZafir Stojanovski 提交
作者: Zafir StojanovskiZafir Stojanovski, Oliver StanleyOliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem AdefioyeAbdulhakeem Adefioye, Jean KaddourJean Kaddour, Andreas Köpf

摘要

我们引入了 Reasoning Gym (RG),这是一个用于可验证奖励强化学习的推理环境库。它提供了超过 100 个数据生成器和验证器,涵盖代数、算术、计算、认知、几何、图论、逻辑和各种常见游戏等多个领域。其关键创新在于能够生成几乎无限的、复杂度可调的训练数据,这与大多数通常固定的现有推理数据集不同。这种程序化生成方法允许在不同难度级别上进行持续评估。我们的实验结果证明了 RG 在评估和强化学习推理模型方面的有效性。
查看 arXiv 页面查看 PDF

评论

Zafir StojanovskiZafir Stojanovski
论文作者
论文提交者

非常高兴能分享我们的开源库 Reasoning Gym

  • 我们提供了 100 多个数据生成器和验证器,涵盖多个领域(代数、算术、代码、几何、逻辑、游戏),用于训练下一代推理模型。

  • 本质上,我们可以生成无限量的数据,其标签可以进行算法化和自动化验证。

  • 这使得在不受高质量标注数据缺乏限制的情况下,大幅扩展训练的强化学习阶段成为可能。

Cameron ArcherCameron Archer

也许你已经看到了,但我发现了英伟达的这篇强化学习论文,他们似乎用这个空间来生成训练数据:https://arxiv.org/abs/2505.24864

Zafir StojanovskiZafir Stojanovski
论文作者
论文提交者

嘿,很高兴你喜欢我们的工作,非常欢迎对我们开源仓库的贡献!

关于 NVIDIA 的强化学习(RL)论文:很高兴看到我们的库被其他团队验证,我们也希望它能对未来的研究有所帮助!