⏶64
SynLogic:大规模合成可验证推理数据,迈向逻辑推理及其他领域
发表
由
MiniMax 提交

作者:
Junteng Liu,
Yuanxiang Fan, Zhuo Jiang, Han Ding, Yongyi Hu, Chi Zhang, Yiqi Shi, Shitong Weng,
Aili Chen,
Shiqi Chen,
Yunan Huang,
Mozhi Zhang, Pengyu Zhao,
Junjie Yan,
Junxian He
摘要
近期进展,如 OpenAI-o1 和 DeepSeek R1,已展示了强化学习 (RL) 增强大语言模型 (LLM) 推理能力的潜力。尽管开源复现工作主要集中在数学和编码领域,但开发通用推理能力的方法和资源仍有待探索。这一差距部分源于收集适用于 RL 的多样化且可验证的推理数据的挑战。我们假设逻辑推理对于发展通用推理能力至关重要,因为逻辑是推理的基础构建块。在这项工作中,我们提出了 SynLogic,一个数据合成框架和数据集,它能够大规模生成多样化的逻辑推理数据,涵盖 35 种不同的逻辑推理任务。SynLogic 方法能够控制合成数据的难度和数量。重要的是,所有示例都可以通过简单的规则验证,使其非常适合具有可验证奖励的 RL。在我们的实验中,我们基于 7B 和 32B 模型验证了在 SynLogic 数据集上进行 RL 训练的有效性。SynLogic 在开源数据集中实现了最先进的逻辑推理性能,在 BBEH 上超过 DeepSeek-R1-Distill-Qwen-32B 6 分。此外,将 SynLogic 数据与数学和编码任务混合可以提高这些领域的训练效率,并显著增强推理泛化能力。值得注意的是,我们的混合训练模型在多个基准测试中优于 DeepSeek-R1-Zero-Qwen-32B。这些发现将 SynLogic 定位为提升 LLM 更广泛推理能力的重要资源。我们在 https://github.com/MiniMax-AI/SynLogic 开源了数据合成管线和 SynLogic 数据集。
OpenAI-o1和DeepSeek R1等近期进展表明,强化学习(RL)有潜力增强大型语言模型(LLM)的推理能力。虽然开源复现工作主要集中在数学和编程领域,但用于开发通用推理能力的方法和资源仍未得到充分探索。这一差距部分是由于收集适合RL的、多样化且可验证的推理数据面临挑战。我们假设逻辑推理对于发展通用推理能力至关重要,因为逻辑是推理的基本组成部分。在这项工作中,我们提出了SynLogic,这是一个数据合成框架和数据集,可以大规模生成多样化的逻辑推理数据,涵盖35种不同的逻辑推理任务。SynLogic方法支持对数据进行可控合成,并可调节难度和数量。重要的是,所有示例都可以通过简单的规则进行验证,使其非常适合使用可验证奖励进行RL训练。在我们的实验中,我们基于7B和32B模型验证了SynLogic数据集上RL训练的有效性。SynLogic在开源数据集中的逻辑推理性能达到了最先进水平,在BBEH上的表现超过了DeepSeek-R1-Distill-Qwen-32B 6个点。此外,将SynLogic数据与数学和编程任务混合使用,可以提高这些领域的训练效率,并显著增强推理泛化能力。值得注意的是,我们的混合训练模型在多个基准测试中均优于DeepSeek-R1-Zero-Qwen-32B。这些发现表明,SynLogic是推进LLM更广泛推理能力的宝贵资源。我们在https://github.com/MiniMax-AI/SynLogic上开源了数据合成流程和SynLogic数据集。