Phi-4-Mini-Reasoning:探索小型推理语言模型在数学领域的极限

发表
AKAK 提交
作者: Haoran XuHaoran Xu, Baolin PengBaolin Peng, Hany Awadalla, Dongdong ChenDongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin KimYoung Jin Kim, Yunsheng LiYunsheng Li, Liliang RenLiliang Ren, Yelong ShenYelong Shen, WangShuohang Wang, Weijian XuWeijian Xu, Jianfeng GaoJianfeng Gao, Weizhu ChenWeizhu Chen

摘要

思维链(CoT)通过训练大型语言模型(LLMs)显式生成中间推理步骤,显著增强了其形式推理能力。虽然 LLMs 很容易从这类技术中受益,但由于其有限的模型容量,提高小型语言模型(SLMs)的推理能力仍然具有挑战性。Deepseek-R1 最近的工作表明,从 LLM 生成的合成数据进行蒸馏可以大幅提高 SLM 的推理能力。然而,其详细的模型构建方法并未公开。在这项工作中,我们提出了一种系统的 SLM 训练方法,包括四个步骤:(1)在多样的蒸馏长 CoT 数据上进行大规模中期训练;(2)在高质长 CoT 数据上进行监督微调;(3)利用精心策划的偏好数据集进行 Rollout DPO;以及(4)使用可验证奖励的强化学习(RL)。我们将此方法应用于 Phi-4-Mini,一个紧凑的 38 亿参数模型。由此产生的 Phi-4-Mini-Reasoning 模型在数学推理任务上超越了许多更大的推理模型,例如在 Math-500 上比 DeepSeek-R1-Distill-Qwen-7B 高 3.2 分,比 DeepSeek-R1-Distill-Llama-8B 高 7.7 分。我们的结果验证了,通过精心设计的训练方法,并使用大规模高质的 CoT 数据,即使在资源受限的小型模型中也能释放强大的推理能力。
查看 arXiv 页面查看 PDF

评论

AKAK
论文提交者

Screenshot 2025-04-30 at 10.02.34 PM.png