OpenThoughts:推理模型的数据配方

发表
Etash GuhaEtash Guha 提交
作者: Etash Guha, Ryan MartenRyan Marten, Sedrick Keh, Negin Raoof, Georgios Smyrnis, Hritik Bansal, Marianna NezhurinaMarianna Nezhurina, Jean Mercat, Trung Vu, Zayne Sprague, Ashima Suvarna, Benjamin FeuerBenjamin Feuer, Liangyu Chen, Zaid Khan, Eric Frankel, Sachin Grover, Caroline Choi, Niklas Muennighoff, Shiye Su, Wanjia Zhao, John Yang, Shreyas PimpalgaonkarShreyas Pimpalgaonkar, Kartik Sharma, Charlie Cheng-Jie Ji, Ethan DengYichuan Deng, Sarah Pratt, Vivek Ramanujan, Jon Saad-Falcon, Jeffrey Li, Achal Dave, Alon AlbalakAlon Albalak, Kushal Arora, Blake Wulfe, Chinmay HegdeChinmay Hegde, Greg Durrett, Sewoong Oh, Mohit Bansal, Saadia Gabriel, Aditya Grover, Kai-Wei Chang, Vaishaal Shankar, Aaron Gokaslan, Mike A. Merrill, Tatsunori Hashimoto, Yejin Choi, Jenia Jitsev, Reinhard Heckel, Maheswaran Sathiamoorthy, Alexandros G. Dimakis, Ludwig Schmidt

摘要

推理模型在数学、代码和科学等许多基准上取得了快速进展。然而,关于推理的最佳训练方案仍有许多未决问题,因为最先进的模型通常依赖于几乎没有公开信息的专有数据集。为了解决这个问题,OpenThoughts 项目的目标是创建用于训练推理模型的开源数据集。经过初步探索,我们的 OpenThoughts2-1M 数据集促成了 OpenThinker2-32B,这是第一个在公共推理数据上训练的模型,在 AIME 和 LiveCodeBench 等标准推理基准上与 DeepSeek-R1-Distill-32B 匹敌。然后,我们通过系统地研究数据生成管道的每一步,进行了 1,000 多个受控实验,进一步改进了我们的数据集,从而形成了 OpenThoughts3。将管道扩展到 1.2M 示例,并使用 QwQ-32B 作为教师模型,得到了我们的 OpenThinker3-7B 模型,该模型取得了最先进的结果:AIME 2025 上为 53%,LiveCodeBench 06/24-01/25 上为 51%,GPQA Diamond 上为 54%。我们所有的数据集和模型都可在 https://openthoughts.ai 获取。
查看 arXiv 页面查看 PDF
OpenThoughts:推理模型的数据配方
OpenThoughts:推理模型的数据配方

评论

Etash GuhaEtash Guha
论文提交者

推理模型在许多涉及数学、代码和科学的基准测试中取得了快速进展。然而,关于推理模型的最佳训练方法仍然存在许多开放问题,因为最先进的模型通常依赖于几乎没有公开信息的专有数据集。为了解决这个问题,OpenThoughts 项目的目标是创建用于训练推理模型的开源数据集。经过初步探索,我们的 OpenThoughts2-1M 数据集催生了 OpenThinker2-32B,这是第一个在公共推理数据上训练的模型,其性能在 AIME 和 LiveCodeBench 等标准推理基准上与 DeepSeek-R1-Distill-32B 相当。随后,我们通过系统地研究数据生成管道的每个步骤,进行了 1,000 多次实验,进一步改进了我们的数据集,从而产生了 OpenThoughts3。将管道扩展到 1.2M 示例并使用 QwQ-32B 作为教师模型,得到了我们的 OpenThinker3-7B 模型,该模型取得了最先进的成果:AIME 2025 上 53%,LiveCodeBench 06/24-01/25 上 51%,以及 GPQA Diamond 上 54%。我们所有的数据集和模型都可在 openthoughts.ai 上获取。