并非所有正确答案都等同:为什么你的蒸馏源很重要

发表
TianXiaoyuTianXiaoyu 提交
作者: TianXiaoyuXiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li

摘要

蒸馏已成为一种实用且有效的方法,可以增强开源语言模型的推理能力。在这项工作中,我们通过从三个最先进的教师模型——AM-Thinking-v1、Qwen3-235B-A22B 和 DeepSeek-R1——收集在包含 189 万个查询的共享语料库上的验证输出,对推理数据蒸馏进行了一项大规模实证研究。我们构建了三个并行数据集并分析了它们的分布,结果显示 AM-Thinking-v1 蒸馏的数据表现出更大的 token 长度多样性和更低的困惑度。在每个数据集上训练的学生模型在包括 AIME2024、AIME2025、MATH500 和 LiveCodeBench 在内的推理基准上进行了评估。基于 AM 的模型始终取得最佳性能(例如,AIME2024 上为 84.3,AIME2025 上为 72.2,MATH500 上为 98.4,LiveCodeBench 上为 65.9),并展示了自适应的输出行为——对较难的任务产生更长的响应,对较简单的任务产生更短的响应。这些发现突显了高质量、经过验证的推理轨迹的价值。我们发布了 AM-Thinking-v1 和 Qwen3-235B-A22B 蒸馏数据集,以支持未来对开放、高性能推理导向语言模型的研究。数据集可在 Hugging Face 上公开获取:<a href="https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled&quot;&gt;AM-Thinking-v1-Distilled&lt;/a&gt;, <a href="https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled&quot;&gt;AM-Qwen3-Distilled&lt;/a&gt;
查看 arXiv 页面查看 PDF

评论

TianXiaoyuTianXiaoyu
论文作者
论文提交者

我们对推理数据蒸馏进行了一项大规模实证研究,通过在一个包含189万个查询的共享语料库上收集来自三个最先进语言模型——AM-Thinking-v1、Qwen3-235B-A22B 和 DeepSeek-R1——的验证输出,生成了三个并行的蒸馏数据集。其中,AM-Thinking-v1 蒸馏数据表现出更大的 token 长度多样性和更低的困惑度。在每个数据集上训练的学生模型在多个推理基准上进行评估,包括 AIME2024 (84.3)、AIME2025 (72.2)、MATH500 (98.4) 和 LiveCodeBench (65.9),其中基于 AM 的学生模型始终表现最好。值得注意的是,它还展示了自适应响应生成能力,对更难的问题生成更长的输出,对更简单的问题生成更短的输出。这些结果强调了高质量、可验证推理轨迹对于提升模型性能的重要性。为了支持未来的研究,我们发布了 AM-Thinking-v1 和 Qwen3-235B-A22B 的蒸馏数据集。