推理模型可以是有效的,无需思考

04月14日发表
04月15日由 Sewon MinSewon Min 提交
作者: Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon MinSewon Min, Matei Zaharia

摘要

最近的大型语言模型(LLMs)显著提高了推理能力,主要是通过在生成过程中加入显式的、冗长的思考过程。在本文中,我们质疑这种显式的思考过程是否是必要的。使用最先进的 DeepSeek-R1-Distill-Qwen 模型,我们发现通过简单的提示绕过思考过程(称为 NoThinking)可能出乎意料地有效。在控制 token 数量的情况下,NoThinking 在包含七个具有挑战性的推理数据集(包括数学问题解决、形式化定理证明和编码)的多元集合中优于 Thinking,尤其是在低预算设置中,例如在 ACM 23 数据集上使用 700 个 token 时,NoThinking 的表现为 51.3,而 Thinking 为 28.9。值得注意的是,随着 k 的增加,NoThinking 的性能在 pass@k 指标上变得更具竞争力。基于这一观察,我们证明了一种并行扩展方法非常有效,该方法使用 NoThinking 独立生成 N 个输出并聚合它们。对于聚合,我们在可用时使用特定于任务的验证器,或者我们应用简单的 N 中取优策略,例如基于置信度的选择。我们的方法在相似延迟的情况下优于一系列使用 Thinking 的基线方法,并且在延迟显著更长(高达 9 倍)的情况下与 Thinking 方法相当。总而言之,我们的研究鼓励重新考虑冗长思考过程的必要性,同时也为在低预算设置或低延迟下使用并行扩展实现强大的推理性能建立了一个有竞争力的参考。
查看 arXiv 页面查看 PDF

评论

Sewon MinSewon Min
论文作者
论文提交者

一篇新的论文表明,对于SoTA推理模型,思考框内的“meta CoT”可能并非必要。