何时继续思考:用于高效推理的自适应思维模式切换

发表
Jingqing RuanJingqing Ruan 提交
作者: ZhangXiaoyunXiaoyun Zhang, Jingqing RuanJingqing Ruan, MaxingXing Ma, ZHUYAWENYawen Zhu, Haodong Zhao, Hao Li, Jiansong Chen, Ke Zeng, Xunliang Cai

摘要

大型推理模型(LRMs)通过长推理链取得了显著的性能,但由于冗余推理,尤其是在简单任务上,往往会产生过高的计算开销。在这项工作中,我们系统地量化了 LRMs 在长思考(Long-Thinking)和无思考(No-Thinking)模式下的性能上限,并揭示了“内部自我恢复机制”(Internal Self-Recovery Mechanism)现象,即模型在答案生成过程中会隐式补充推理。基于这一洞察,我们提出了自适应自我恢复推理(Adaptive Self-Recovery Reasoning, ASRR)框架,该框架能够抑制不必要的推理并实现隐式恢复。通过引入精度感知长度奖励调控,ASRR 根据问题难度自适应地分配推理努力,在性能牺牲可忽略不计的情况下实现了高效率。在多个基准和模型上的实验表明,与 GRPO 相比,ASRR 在准确率损失极小(pass@1 分别为 1.2% 和 0.6%)的情况下,将推理预算最高降低了 32.5%(1.5B 模型)和 25.7%(7B 模型),并显著提高了安全基准上的无害率(最高 +21.7%)。我们的结果突出了 ASRR 在实现 LRMs 高效、自适应和更安全推理方面的潜力。
查看 arXiv 页面查看 PDF

评论

Jingqing RuanJingqing Ruan
论文作者
论文提交者

大型推理模型(LRM)通过长推理链取得了卓越的性能,但由于冗余推理,尤其是在简单任务上,往往会产生过多的计算开销。在这项工作中,我们系统地量化了LRM在“长思考”和“无思考”模式下的上限,并揭示了“内部自我恢复机制”现象,即模型在生成答案时会隐式补充推理。基于这一洞察,我们提出了自适应自我恢复推理(ASRR),这是一个抑制不必要推理并实现隐式恢复的框架。通过引入准确度感知的长度奖励调节,ASRR根据问题难度自适应地分配推理资源,在性能牺牲可忽略的情况下实现了高效率。多项基准测试和模型的实验表明,与GRPO相比,ASRR在精度损失最小(1.2%和0.6% pass@1)的情况下,将推理预算分别减少了高达32.5%(1.5B)和25.7%(7B),并在安全基准测试上显著提高了无害率(高达+21.7%)。我们的结果强调了ASRR在LRM中实现高效、自适应和更安全推理的潜力。