太长不看:过长内容,通过重新加权实现高效LLM推理压缩

发表
Xiao LiuXiao Liu 提交
作者: Zhong-Zhi Li, Xiao LiuXiao Liang, Zihao TangZihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, dengWeiwei Deng, Ying Nian Wu, Yeyun GongYeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu

摘要

大型语言模型(LLM)最近通过利用强化学习和扩展的思维链(CoT)技术取得了显著进展。然而,如何高效地进行语言推理——尤其是在生成极长输出时的推理阶段——已引起研究界的日益关注。在这项工作中,我们提出了一种动态比例训练流程,它不依赖于复杂的数据标注或多模型之间的插值。我们持续平衡模型System-1和System-2数据之间的权重,以消除冗余的推理过程,同时保留模型的推理能力。我们在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上以及一系列难度各异的基准测试中验证了我们的方法。我们的方法显著减少了近40%的输出token数量,同时保持了推理的准确性。我们的代码和数据将很快发布。
查看 arXiv 页面查看 PDF

评论

Xiao LiuXiao Liu
论文作者
论文提交者

大型语言模型(LLM)最近通过利用强化学习和扩展的思维链(CoT)技术取得了显著进展。然而,进行高效语言推理的挑战——特别是在推断过程中输出极长的情况下——已引起研究界的日益关注。在这项工作中,我们提出了一种动态比例训练流程,它不依赖于复杂的数据标注或多模型之间的插值。我们持续平衡模型System-1和System-2数据之间的权重,以消除冗余的推理过程,同时保持模型的推理能力。我们在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上以及难度各异的多种基准测试中验证了我们的方法。我们的方法将输出token的数量减少了近40%,同时保持了推理的准确性。我们的代码和数据将很快可用。