⏶7
大型语言模型(LLMs)通过思维链(Chain-of-Thought)在大型语言模型中压缩思维链,利用步骤熵
发表
由
Zeju Li 提交
作者:
Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu
摘要
使用思维链(CoT)提示的大型语言模型(LLM)在复杂推理方面表现出色,但会生成冗长的思维过程,其中包含大量的冗余,从而导致推理成本增加和效率降低。我们引入了一种基于步骤熵的新型 CoT 压缩框架,步骤熵是一种量化单个推理步骤信息贡献以识别冗余的指标。通过理论分析和在数学推理基准上的大量实证验证,我们证明低熵步骤确实高度冗余。我们的实验表明,在 DeepSeek-R1-7B、14B 和 Qwen3-8B 模型中,80% 的低熵中间步骤可以在最终答案准确性略微下降的情况下被修剪。这一发现与随机或高熵修剪形成鲜明对比,后者会严重损害推理性能。在此基础上,我们提出了一种新颖的两阶段训练策略,结合了监督微调(SFT)和组相对策略优化(GRPO)强化学习。这种方法使 LLM 能够通过战略性地整合 [SKIP] 标记,在推理过程中自主学习生成压缩的 COT。我们的方法显著提高了 LLM 推理效率,同时严格保持了准确性,为 LLM 的实际部署和对推理结构的更深入理解提供了深远的意义。
研究人员引入了一种新颖的方法来压缩大型语言模型中冗长的思维链(CoT)推理,通过使用“步骤熵”识别和修剪冗余步骤,实现了 35-57% 的标记(token)减少,同时保持了准确性。
主要贡献:
🎯 步骤熵度量:一种衡量单个推理步骤信息贡献的原则性方法,通过聚合生成过程中的标记级别熵。
📊 惊人发现:高达 80% 的低熵推理步骤可以安全地移除,而不会损失准确性,而高熵步骤至关重要,不能被修剪。
⚡ 实际影响:在多个模型上实现了显著的效率提升——DeepSeek-R1:标记减少 29.7-43.5%,Qwen3-8B:标记减少 16.2-44.9%。在数学推理基准测试中保持或提高了准确性。
🔧 两阶段训练:结合监督微调(SFT)和强化学习(GRPO),教授模型在推理过程中使用 [SKIP] 标记自主生成压缩推理。