MATH-Beyond:一个用于强化学习超越基础模型的基准

发表
Prasanna MayilvahananPrasanna Mayilvahanan 提交
作者: Prasanna MayilvahananPrasanna Mayilvahanan, Ricardo Dominguez-Olmedo, Thaddäus Wiedemer, Wieland Brendel

摘要

AI 生成总结
MATH-Beyond 是一个基准测试,旨在通过要求超越当前模型能力的更深层次的推理能力来挑战现有的强化学习方法。
随着DeepSeek-R1的问世,新一波的强化学习(RL)方法似乎解锁了更强的数学推理能力。然而,对开源生态系统的仔细观察揭示了一个关键限制:在足够多的抽样次数下(例如,pass@1024),许多现有的基础模型已经在广泛使用的数学基准测试(如MATH-500和AIME 2024)中解决了几乎所有问题。这表明,LLM推理文献中普遍存在的RL微调方法主要是优化现有的解决方案模式,而不是发现全新的模式。这种优化与RL更广泛的承诺形成对比:即促进探索和获取新技能。为了突破这一平台期,我们引入了MATH-Beyond(MATH-B),一个专门设计的基准测试,即使在大量的采样预算下也能击败多达80亿参数的常见开源模型。通过RL在我们的基准测试上提高性能需要能够学习以超越基础模型在重复采样能力的方式进行推理的方法。由于问题是从DAPO-Math-17K和DeepScaleR数据集的子集中提取的,它们在主题上等同于标准的高中数学。验证了我们的前提,像Nemotron-Research-Reasoning-Qwen-1.5B和DeepScaleR-1.5B-Preview这样的RL微调模型在pass@1024的MATH-B上表现不佳,表明现有方法在处理更难的实例时存在不足。我们希望MATH-B能促进激发探索驱动的RL方法,以揭示更深层次的推理能力。我们在https://huggingface.co/datasets/brendel-group/MATH-Beyond 发布MATH-B。
查看 arXiv 页面查看 PDF

评论

Prasanna MayilvahananPrasanna Mayilvahanan
论文作者
论文提交者

新的数学基准!