⏶38
Phi-4-Mini-Reasoning:探索小型推理语言模型在数学领域的极限
发表
由
AK 提交

作者:
Haoran Xu,
Baolin Peng, Hany Awadalla,
Dongdong Chen, Yen-Chun Chen, Mei Gao,
Young Jin Kim,
Yunsheng Li,
Liliang Ren,
Yelong Shen,
Shuohang Wang,
Weijian Xu,
Jianfeng Gao,
Weizhu Chen

摘要
思维链(CoT)通过训练大型语言模型(LLMs)显式生成中间推理步骤,显著增强了其形式推理能力。虽然 LLMs 很容易从这类技术中受益,但由于其有限的模型容量,提高小型语言模型(SLMs)的推理能力仍然具有挑战性。Deepseek-R1 最近的工作表明,从 LLM 生成的合成数据进行蒸馏可以大幅提高 SLM 的推理能力。然而,其详细的模型构建方法并未公开。在这项工作中,我们提出了一种系统的 SLM 训练方法,包括四个步骤:(1)在多样的蒸馏长 CoT 数据上进行大规模中期训练;(2)在高质长 CoT 数据上进行监督微调;(3)利用精心策划的偏好数据集进行 Rollout DPO;以及(4)使用可验证奖励的强化学习(RL)。我们将此方法应用于 Phi-4-Mini,一个紧凑的 38 亿参数模型。由此产生的 Phi-4-Mini-Reasoning 模型在数学推理任务上超越了许多更大的推理模型,例如在 Math-500 上比 DeepSeek-R1-Distill-Qwen-7B 高 3.2 分,比 DeepSeek-R1-Distill-Llama-8B 高 7.7 分。我们的结果验证了,通过精心设计的训练方法,并使用大规模高质的 CoT 数据,即使在资源受限的小型模型中也能释放强大的推理能力。
评论

论文提交者