思想操纵:外部的思考可以高效地用于大型推理模型

发表
Talha Rüzgar AkkuşTalha Rüzgar Akkuş 提交
作者: Yule Liu, Jingyi Zheng, Zhen Sun, Zifan Peng, Wenhan Dong, Zeyang Sha, Shiwen Cui, Weiqiang Wang, Xinlei He

摘要

大型推理模型(LRM)的最新进展表明,扩展测试时计算能够有效提升模型在多项任务中的推理能力。然而,大型推理模型(LRM)通常存在“过度思考”问题,即模型会生成大量冗余的推理步骤,但性能提升却很有限。现有工作依赖于微调来缓解过度思考问题,但这需要额外的数据、非传统的训练设置、存在安全对齐风险以及较差的泛化能力。 通过实证分析,我们揭示了大型推理模型(LRM)行为的一个重要特征:将由较小模型生成的外部 CoT 放置在思考 token(<think> 和 </think>)之间,可以有效引导模型生成更少的思考。基于这些洞见,我们提出了一种简单而高效的流程 ThoughtMani,旨在使大型推理模型(LRM)能够绕过不必要的中间步骤,并显著降低计算成本。我们进行了广泛的实验,以验证 ThoughtMani 的实用性和效率。例如,当应用于 LiveBench/Code 数据集上的 QwQ-32B 模型时,ThoughtMani 在保持原始性能的同时,将输出 token 数量减少了约 30%,且 CoT 生成器几乎没有带来额外的开销。此外,我们发现 ThoughtMani 平均提升了 10% 的安全对齐水平。鉴于模型供应商通常会同时提供不同规模的模型,ThoughtMani 提供了一种有效途径,可以构建更高效、更易于访问的大型推理模型(LRM),以服务于实际应用。
查看 arXiv 页面查看 PDF

评论

Talha Rüzgar AkkuşTalha Rüzgar Akkuş
论文提交者

大型推理模型(LRM)的最新进展表明,扩展测试时计算在增强多个任务中的推理能力方面是有效的。然而,LRM通常会遇到“过度思考”问题,其中模型会生成大量冗余的推理步骤,同时带来有限的性能提升。现有工作依赖于微调以减轻过度思考,但这需要额外的数据、非传统的训练设置、有风险的安全对齐偏差以及较差的泛化能力。

通过实证分析,我们揭示了LRM行为的一个重要特征,即在思考标记( 和 )之间放置由较小模型生成的外部CoT,可以有效地操纵模型以生成更少的思考。基于这些见解,我们提出了一个简单而高效的流程ThoughtMani,以使LRM能够绕过不必要的中间步骤,并显著降低计算成本。我们进行了广泛的实验,以验证ThoughtMani的实用性和效率。例如,当应用于LiveBench/Code数据集上的QwQ-32B时,ThoughtMani保持了原始性能,并将输出token数量减少了约30%,且CoT生成器几乎没有额外开销。此外,我们发现ThoughtMani将安全对齐平均提升了10%。由于模型供应商通常同时提供不同规模的模型,ThoughtMani为构建更高效和更易于访问的LRM用于实际应用提供了一种有效的方法。