简洁推理,巨大收益:通过难度感知提示剪除冗长推理过程

发表
Loser CheemsLoser Cheems 提交
作者: Yifan Wu, Loser CheemsJingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo

摘要

现有的思维链 (CoT) 蒸馏方法可以有效地将推理能力转移到基础模型,但存在两个主要局限性:推理痕迹过于冗长和对问题难度的适应性不足。长推理痕迹显著增加了推理成本,而固定长度的解决方案阻止了基础模型学习自适应推理策略。为了解决这些问题,我们提出了一种难度感知提示 (DAP) 方法,可在不损失性能的情况下动态缩短推理痕迹。在我们的方法中,一个大型教师模型首先判断每个问题的难度,然后将其推理痕迹重写为适当的更短长度,生成简洁而完整的推理痕迹。利用DAP流程,我们构建了一个名为LiteCoT的蒸馏数据集,包含10万个简洁推理示例,其解决方案平均只有720个token(比典型的CoT短一个数量级)。使用LiteCoT,我们基于Qwen2.5架构蒸馏出了一系列新的推理模型,称为Liter(1.5B、7B和32B)。实验表明,仅在10万个经过难度剪裁的CoT样本上微调的学生模型,其性能优于在80万个原始长CoT样本上蒸馏的模型,同时显著降低了训练和推理成本。我们的方法泛化性也很好:在11个不同的基准测试中,更短的难度感知CoT使用少得多的token,却能达到与长链相同或更好的准确率。例如,在具有挑战性的AIME24考试中,我们的方法仅使用大约5K推理token就达到了74.2%的Pass@1,超越了消耗更多token的其他方法。我们的代码和数据可在 https://github.com/Evanwu1125/LiteCoT 获取。
查看 arXiv 页面查看 PDF

评论

Loser CheemsLoser Cheems
论文作者
论文提交者

简洁推理,大收获!🤓