⏶40
Enigmata:使用合成可验证谜题扩展大型语言模型的逻辑推理能力
发表
由
Siyu Yuan 提交

作者:
Jiangjie Chen,
Qianyu He,
Siyu Yuan,
Aili Chen, Zhicheng Cai, Weinan Dai, Hongli Yu, Qiying Yu, Xuefeng Li, Jiaze Chen, Hao Zhou, Mingxuan Wang


摘要
大语言模型(LLM),例如 OpenAI 的 o1 和 DeepSeek 的 R1,擅长通过可验证奖励强化学习(RLVR)处理数学和编程等高级推理任务,但在处理人类无需领域知识即可解决的谜题时仍然存在困难。我们引入了 Enigmata,这是第一个专门为提升 LLM 谜题推理能力而设计的综合套件。它包含七个类别的 36 个任务,每个任务都有:1)一个可以生成无限量、难度可控示例的生成器,以及 2)一个用于自动评估的基于规则的验证器。这种生成器-验证器设计支持可扩展的多任务强化学习训练、细粒度分析和无缝的 RLVR 集成。我们进一步提出了 Enigmata-Eval 这一严格的基准测试,并开发了优化的多任务 RLVR 策略。我们训练的模型 Qwen2.5-32B-Enigmata 在 Enigmata-Eval、ARC-AGI (32.8%) 和 ARC-AGI 2 (0.6%) 等谜题推理基准测试上持续超越 o3-mini-high 和 o1。它在领域外谜题基准和数学推理方面也表现出良好的泛化能力,且多任务处理的权衡很小。当在 Seed1.5-Thinking(200 亿激活参数和 2000 亿总参数)等更大的模型上进行训练时,来自 Enigmata 的谜题数据进一步提升了在 AIME (2024-2025)、BeyondAIME 和 GPQA (Diamond) 等高级数学和 STEM 推理任务上的 SoTA 性能,显示了 Enigmata 良好的泛化优势。这项工作为提升 LLM 的逻辑推理能力提供了一个统一、可控的框架。本工作的资源可在 https://seed-enigmata.github.io 找到。
我们引入了 Enigmata,这是首个专为提升大型语言模型(LLM)的谜题推理能力而量身定制的全面套件,它与使用可验证的基于规则的奖励的强化学习无缝集成。
Enigmata-Data 包含 7 个类别的 36 项任务,每项任务都配备:1) 一个可以生成无限数量且难度可控的示例的生成器,和 2) 一个用于自动评估的基于规则的验证器。这种生成器-验证器设计支持可扩展的、多任务强化学习训练、细粒度分析以及无缝的 RLVR 集成。我们进一步提出了 Enigmata-Eval,这是一个用于评估谜题推理能力的严格基准,并指导可泛化推理模型的研究。
使用 RLVR 训练的 Qwen2.5-32B-Enigmata,在 Enigmata-Eval、ARC-AGI 和 ARC-AGI 2 等谜题推理基准上持续超越了 o3-mini-high 和 o1。它在域外谜题基准和数学推理方面也泛化良好,且多任务处理的权衡很小。
当在 Seed1.5-Thinking 等更大的模型(20B 激活参数和 200B 总参数)上训练时,来自 Enigmata 的谜题数据进一步提升了在 AIME (2024-2025)、BeyondAIME 和 GPQA (Diamond) 等高级数学和 STEM 推理任务上的 SoTA 性能,显示了 Enigmata 良好的泛化效益。