Phi-4-reasoning 技术报告

发表
AKAK 提交
作者: Marah AbdinMarah Abdin, Sahaj AgarwalSahaj Agarwal, Ahmed AwadallahAhmed Awadallah, Vidhisha BalachandranVidhisha Balachandran, Harkirat BehlHarkirat Behl, Lingjiao Chen, Gustavo de RosaGustavo de Rosa, GunasekarSuriya Gunasekar, Mojan JavaheripiMojan Javaheripi, Neel Joshi, Piero KauffmannPiero Kauffmann, Yash LaraYash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira NushiBesmira Nushi, Dimitris PapailiopoulosDimitris Papailiopoulos, Olli SaarikiviOlli Saarikivi, Shital Shah, Vaishnavi ShrivastavaVaishnavi Shrivastava, Vibhav VineetVibhav Vineet, Yue Wu, Safoora YousefiSafoora Yousefi, Guoqing ZhengGuoqing Zheng

摘要

我们介绍 Phi-4-reasoning,一个拥有 140 亿参数的推理模型,在复杂推理任务上取得了强大性能。Phi-4-reasoning 通过对 Phi-4 进行监督微调(SFT)训练,使用了精心策划的“可教导”提示集合——根据适当的复杂性和多样性进行选择——以及使用 o3-mini 生成的推理演示。Phi-4-reasoning 生成详细的推理链,有效利用推理时的计算。我们进一步开发了 Phi-4-reasoning-plus,一个通过简短的基于结果的强化学习阶段增强的变体,通过生成更长的推理轨迹提供更高性能。在一系列广泛的推理任务中,这两个模型都显著超越了规模大得多的开源模型,如 DeepSeek-R1-Distill-Llama-70B 模型,并接近了完整的 DeepSeek-R1 模型的性能水平。我们的全面评估涵盖了数学和科学推理、编码、算法问题解决、规划和空间理解等领域的基准测试。有趣的是,我们观察到性能提升对通用基准测试也带来了显著的迁移效应。在本报告中,我们提供了关于我们的训练数据、训练方法和评估的深入见解。我们展示了精心策划的监督微调(SFT)数据的好处同样适用于推理语言模型,并且可以通过强化学习(RL)进一步放大。最后,我们的评估指出了在如何评估推理模型的性能和鲁棒性方面存在的改进机会。
查看 arXiv 页面查看 PDF

评论

AKAK
论文提交者

Screenshot 2025-04-30 at 9.52.24 PM.png

Clem 🤗Clem 🤗

@lewtun 的分析:https://x.com/_lewtun/status/1917947747195298086。@anadim 和团队,干得好!