⏶8

思想操纵：外部的思考可以高效地用于大型推理模型

04月18日发表

04月21日由 Talha Rüzgar Akkuş 提交

作者: Yule Liu, Jingyi Zheng, Zhen Sun, Zifan Peng, Wenhan Dong, Zeyang Sha, Shiwen Cui, Weiqiang Wang, Xinlei He

摘要

大型推理模型（LRM）的最新进展表明，扩展测试时计算能够有效提升模型在多项任务中的推理能力。然而，大型推理模型（LRM）通常存在“过度思考”问题，即模型会生成大量冗余的推理步骤，但性能提升却很有限。现有工作依赖于微调来缓解过度思考问题，但这需要额外的数据、非传统的训练设置、存在安全对齐风险以及较差的泛化能力。通过实证分析，我们揭示了大型推理模型（LRM）行为的一个重要特征：将由较小模型生成的外部 CoT 放置在思考 token（<think> 和 </think>）之间，可以有效引导模型生成更少的思考。基于这些洞见，我们提出了一种简单而高效的流程 ThoughtMani，旨在使大型推理模型（LRM）能够绕过不必要的中间步骤，并显著降低计算成本。我们进行了广泛的实验，以验证 ThoughtMani 的实用性和效率。例如，当应用于 LiveBench/Code 数据集上的 QwQ-32B 模型时，ThoughtMani 在保持原始性能的同时，将输出 token 数量减少了约 30%，且 CoT 生成器几乎没有带来额外的开销。此外，我们发现 ThoughtMani 平均提升了 10% 的安全对齐水平。鉴于模型供应商通常会同时提供不同规模的模型，ThoughtMani 提供了一种有效途径，可以构建更高效、更易于访问的大型推理模型（LRM），以服务于实际应用。

查看 arXiv 页面查看 PDF

Talha Rüzgar Akkuş

论文提交者

大型推理模型（LRM）的最新进展表明，扩展测试时计算在增强多个任务中的推理能力方面是有效的。然而，LRM通常会遇到“过度思考”问题，其中模型会生成大量冗余的推理步骤，同时带来有限的性能提升。现有工作依赖于微调以减轻过度思考，但这需要额外的数据、非传统的训练设置、有风险的安全对齐偏差以及较差的泛化能力。

通过实证分析，我们揭示了LRM行为的一个重要特征，即在思考标记（和）之间放置由较小模型生成的外部CoT，可以有效地操纵模型以生成更少的思考。基于这些见解，我们提出了一个简单而高效的流程ThoughtMani，以使LRM能够绕过不必要的中间步骤，并显著降低计算成本。我们进行了广泛的实验，以验证ThoughtMani的实用性和效率。例如，当应用于LiveBench/Code数据集上的QwQ-32B时，ThoughtMani保持了原始性能，并将输出token数量减少了约30%，且CoT生成器几乎没有额外开销。此外，我们发现ThoughtMani将安全对齐平均提升了10%。由于模型供应商通常同时提供不同规模的模型，ThoughtMani为构建更高效和更易于访问的LRM用于实际应用提供了一种有效的方法。

思想操纵：外部的思考可以高效地用于大型推理模型

摘要

评论