⏶2
太长不看:过长内容,通过重新加权实现高效LLM推理压缩
发表
由
Xiao Liu 提交

作者: Zhong-Zhi Li,
Xiao Liang,
Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang,
Weiwei Deng, Ying Nian Wu,
Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu

摘要
大型语言模型(LLM)最近通过利用强化学习和扩展的思维链(CoT)技术取得了显著进展。然而,如何高效地进行语言推理——尤其是在生成极长输出时的推理阶段——已引起研究界的日益关注。在这项工作中,我们提出了一种动态比例训练流程,它不依赖于复杂的数据标注或多模型之间的插值。我们持续平衡模型System-1和System-2数据之间的权重,以消除冗余的推理过程,同时保留模型的推理能力。我们在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上以及一系列难度各异的基准测试中验证了我们的方法。我们的方法显著减少了近40%的输出token数量,同时保持了推理的准确性。我们的代码和数据将很快发布。
大型语言模型(LLM)最近通过利用强化学习和扩展的思维链(CoT)技术取得了显著进展。然而,进行高效语言推理的挑战——特别是在推断过程中输出极长的情况下——已引起研究界的日益关注。在这项工作中,我们提出了一种动态比例训练流程,它不依赖于复杂的数据标注或多模型之间的插值。我们持续平衡模型System-1和System-2数据之间的权重,以消除冗余的推理过程,同时保持模型的推理能力。我们在DeepSeek-R1-Distill-7B和DeepSeek-R1-Distill-14B模型上以及难度各异的多种基准测试中验证了我们的方法。我们的方法将输出token的数量减少了近40%,同时保持了推理的准确性。我们的代码和数据将很快可用。