⏶11
优化大型推理模型中的长度压缩
发表
由
Tianyi Zhou 提交

作者:
Zhengxiang Cheng, Dongping Chen, Mingyang Fu,
Tianyi Zhou

摘要
大型推理模型(LRM)取得了显著成功,但它们常常会产生不必要且冗长的推理链。我们将这一问题的核心方面识别为"无效思考"——模型在得出正确答案后,倾向于反复地复核其工作。为了解决这种特定的低效性,我们超越了“有效性”和“效率”的一般原则,提出了两个新的、细粒度的原则:简洁性(Brevity),倡导消除冗余;以及充分性(Sufficiency),确保关键推理步骤得到保留。在这些原则的指导下,我们引入了 LC-R1,一种基于组相对策略优化(GRPO)的后训练方法。LC-R1 采用了一种新颖的组合:长度奖励(Length Reward)用于整体简洁性,以及压缩奖励(Compress Reward),后者专门设计用于移除思维过程中的无效部分。在多个推理基准上的大量实验表明,LC-R1 在序列长度上实现了显著减少(约 50%),而准确率仅略微下降(约 2%),在帕累托前沿上达到了一个有利于高压缩的权衡点。我们的分析进一步验证了 LC-R1 的鲁棒性,并为开发更强大但计算效率更高的 LRM 提供了宝贵的见解。我们的代码已发布于 https://github.com/zxiangx/LC-R1。
评论

论文作者
论文提交者