⏶11
DeepMath-103K:一个大规模、具有挑战性、已净化且可验证的数学数据集,用于推进推理
04月15日发表
04月16日由
Daniel van Strien 提交

作者: Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
摘要
复杂数学推理能力是人工智能的关键基准。虽然应用于大型语言模型 (LLM) 的强化学习 (RL) 显示出了希望,但缺乏大规模的训练数据严重阻碍了进展,这些训练数据应具有足够的挑战性、具有适用于强化学习的可验证答案格式,并且不受评估基准的污染。为了解决这些限制,我们推出了 DeepMath-103K,这是一个新的大规模数据集,包含约 103K 个数学问题,专门设计用于通过强化学习训练高级推理模型。DeepMath-103K 通过严格的流程进行策划,包括来源分析、针对众多基准的严格去污染以及高难度(主要是 5-9 级)过滤,在挑战性方面大大超过了现有的开放资源。每个问题都包含一个可验证的最终答案,从而实现基于规则的强化学习,以及三个不同的 R1 生成的解决方案,适用于有监督微调或知识蒸馏等多样化的训练范式。DeepMath-103K 涵盖广泛的数学主题,促进了通用推理的发展。我们证明,在 DeepMath-103K 上训练的模型在具有挑战性的数学基准上取得了显著改进,验证了其有效性。我们公开发布 DeepMath-103K,以促进社区在构建更强大的人工智能推理系统方面取得进展:https://github.com/zwhe99/DeepMath。
评论

论文提交者

感谢您的认可!我们没有使用 Qwen 2.5-Math,因为我们注意到 ORZ 论文(图 13) 的结果表明,它很难涌现长链式思考。这一点也得到了 SimpleRL-Zoo(图 12) 的进一步验证。 我们可能会将 Qwen2.5-Math 作为一个额外的实验添加到综合研究中,但目前不是优先事项。

非常感谢您的热情!
如果您想在 DeepMath-103K 上使用 Qwen 2.5-Math 运行微调实验,您绝对可以参考我们在 GitHub 仓库 中提供的代码和训练脚本。您只需要将相关脚本中指定的基础模型更改为 Qwen 2.5-Math 即可。
然而,请注意,这需要大量的计算资源。根据我们的估计,可能需要 8 块 80GB 的 GPU 训练约 10 天。