SynLogic:大规模合成可验证推理数据,迈向逻辑推理及其他领域

发表
MiniMaxMiniMax 提交
作者: Junteng LiuJunteng Liu, Yuanxiang FanYuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng, Ellie ChenAili Chen, Shiqi ChenShiqi Chen, Yu-Nan HuangYunan Huang, Mozhi ZhangMozhi Zhang, Pengyu Zhao, JunjieYanJunjie Yan, Junxian HeJunxian He

摘要

近期进展,如 OpenAI-o1 和 DeepSeek R1,已展示了强化学习 (RL) 增强大语言模型 (LLM) 推理能力的潜力。尽管开源复现工作主要集中在数学和编码领域,但开发通用推理能力的方法和资源仍有待探索。这一差距部分源于收集适用于 RL 的多样化且可验证的推理数据的挑战。我们假设逻辑推理对于发展通用推理能力至关重要,因为逻辑是推理的基础构建块。在这项工作中,我们提出了 SynLogic,一个数据合成框架和数据集,它能够大规模生成多样化的逻辑推理数据,涵盖 35 种不同的逻辑推理任务。SynLogic 方法能够控制合成数据的难度和数量。重要的是,所有示例都可以通过简单的规则验证,使其非常适合具有可验证奖励的 RL。在我们的实验中,我们基于 7B 和 32B 模型验证了在 SynLogic 数据集上进行 RL 训练的有效性。SynLogic 在开源数据集中实现了最先进的逻辑推理性能,在 BBEH 上超过 DeepSeek-R1-Distill-Qwen-32B 6 分。此外,将 SynLogic 数据与数学和编码任务混合可以提高这些领域的训练效率,并显著增强推理泛化能力。值得注意的是,我们的混合训练模型在多个基准测试中优于 DeepSeek-R1-Zero-Qwen-32B。这些发现将 SynLogic 定位为提升 LLM 更广泛推理能力的重要资源。我们在 https://github.com/MiniMax-AI/SynLogic 开源了数据合成管线和 SynLogic 数据集。
查看 arXiv 页面查看 PDF

评论

MiniMaxMiniMax
论文提交者

OpenAI-o1和DeepSeek R1等近期进展表明,强化学习(RL)有潜力增强大型语言模型(LLM)的推理能力。虽然开源复现工作主要集中在数学和编程领域,但用于开发通用推理能力的方法和资源仍未得到充分探索。这一差距部分是由于收集适合RL的、多样化且可验证的推理数据面临挑战。我们假设逻辑推理对于发展通用推理能力至关重要,因为逻辑是推理的基本组成部分。在这项工作中,我们提出了SynLogic,这是一个数据合成框架和数据集,可以大规模生成多样化的逻辑推理数据,涵盖35种不同的逻辑推理任务。SynLogic方法支持对数据进行可控合成,并可调节难度和数量。重要的是,所有示例都可以通过简单的规则进行验证,使其非常适合使用可验证奖励进行RL训练。在我们的实验中,我们基于7B和32B模型验证了SynLogic数据集上RL训练的有效性。SynLogic在开源数据集中的逻辑推理性能达到了最先进水平,在BBEH上的表现超过了DeepSeek-R1-Distill-Qwen-32B 6个点。此外,将SynLogic数据与数学和编程任务混合使用,可以提高这些领域的训练效率,并显著增强推理泛化能力。值得注意的是,我们的混合训练模型在多个基准测试中均优于DeepSeek-R1-Zero-Qwen-32B。这些发现表明,SynLogic是推进LLM更广泛推理能力的宝贵资源。我们在https://github.com/MiniMax-AI/SynLogic上开源了数据合成流程和SynLogic数据集。