⏶59
REASONING GYM:推理环境,用于具备可验证奖励的强化学习
发表
由
Zafir Stojanovski 提交

作者:
Zafir Stojanovski,
Oliver Stanley, Joe Sharratt, Richard Jones,
Abdulhakeem Adefioye,
Jean Kaddour, Andreas Köpf



摘要
我们引入了 Reasoning Gym (RG),这是一个用于可验证奖励强化学习的推理环境库。它提供了超过 100 个数据生成器和验证器,涵盖代数、算术、计算、认知、几何、图论、逻辑和各种常见游戏等多个领域。其关键创新在于能够生成几乎无限的、复杂度可调的训练数据,这与大多数通常固定的现有推理数据集不同。这种程序化生成方法允许在不同难度级别上进行持续评估。我们的实验结果证明了 RG 在评估和强化学习推理模型方面的有效性。
非常高兴能分享我们的开源库
Reasoning Gym
!我们提供了 100 多个数据生成器和验证器,涵盖多个领域(代数、算术、代码、几何、逻辑、游戏),用于训练下一代推理模型。
本质上,我们可以生成无限量的数据,其标签可以进行算法化和自动化验证。
这使得在不受高质量标注数据缺乏限制的情况下,大幅扩展训练的强化学习阶段成为可能。