等等,我们不需要“等待”!移除思考Token提高了推理效率

发表
Chen DongpingChen Dongping 提交
作者: Chenlong Wang, Yuanning Feng, Dongping Chen, Zhaoyang Chu, Ranjay Krishna, Tianyi ZhouTianyi Zhou

摘要

大型推理模型最近的进展使得复杂的分步推理成为可能,但常常引入显著的过度思考,导致输出冗长且冗余,从而影响效率。在这项研究中,我们探讨了显式自我反思(由“Wait”和“Hmm”等标记表示)对于高级推理是否必要。我们提出了 NoWait,一种简单而有效的方法,通过在推理过程中抑制这些标记来禁用显式自我反思。在涵盖文本、视觉和视频推理任务的十个基准上的广泛实验表明,NoWait 在五个 R1 风格的模型系列中将思维链轨迹长度减少了 27%-51%,同时不影响模型效用。因此,NoWait 为高效且保留效用的多模态推理提供了一种即插即用的解决方案。
查看 arXiv 页面查看 PDF

评论

Chen DongpingChen Dongping
论文提交者

🚀 在 AI 推理中,我们真的需要“等待”吗?

最新研究:移除“Wait”、“Hmm”等思考 token 可将效率提高 27%-51%!🤯

🔥 主要发现

❌ “Wait,让我再想想...”

❌ “Hmm,也许我应该...”

✅ 直接推理 = 效率提升 2 倍!

⚡ NoWait 方法亮点:

🎯 无需训练:即插即用解决方案

📊 大量 token 减少:输出可缩短高达 51%

🎯 精度保持:性能保持或提升

🌐 多模态:文本 + 视觉 + 视频推理

📈 广泛验证:

• 测试了 10 个基准

• 5 个 R1 风格的模型家族

• QwQ-32B、Phi4、Qwen3、Kimi-VL、QvQ 模型

💡 核心洞察:

明确的自我反思 ≠ 更好的推理

简单的关键词抑制 → 显著的效率提升

这可能会重塑我们对 AI 推理的思考方式!🤖✨

论文:https://arxiv.org/pdf/2506.08343

AI #机器学习 #推理 #效率 #LLM #研究