通过自刹车调优使 LLMs 摆脱过度思考

发表
Yongliang ShenYongliang Shen 提交
作者: Haoran ZhaoHaoran Zhao, Yuchen YanYuchen Yan, Yongliang ShenYongliang Shen, xhlHaolei Xu, Wenqi Zhang, Kaitao Song, Jian Shao, Weiming Lu, Jun Xiao, Yueting Zhuang

摘要

大型推理模型 (LRMs),例如 OpenAI o1 和 DeepSeek-R1,通过生成更长的思维链显著增强了它们的推理能力,在各种任务中表现出色。然而,这种性能提升的代价是在生成过程中冗余推理大幅增加,导致计算开销很高,并加剧了“过度思考”的问题。尽管许多现有方法旨在解决过度思考问题,但它们通常依赖于外部干预。在本文中,我们提出了一种新颖的框架,自制动微调 (SBT),它从允许模型调节自身推理过程的角度来解决过度思考问题,从而消除了对外部控制机制的依赖。我们基于标准答案构建了一套过度思考识别指标,并设计了一种系统的方法来检测冗余推理。这种方法能准确识别推理轨迹中不必要的步骤,并生成用于学习自我调节行为的训练信号。在此基础上,我们开发了一个构建具有自适应推理长度数据体的完整策略,并引入了一种创新的制动提示机制,使模型能够自然地学习何时在适当的点终止推理。在数学基准测试(AIME、AMC、MATH500、GSM8K)上的实验表明,我们的方法在保持与无约束模型相当的准确性的同时,将 token 消耗降低了高达 60%。
查看 arXiv 页面查看 PDF

评论

Yongliang ShenYongliang Shen
论文作者
论文提交者

Github: https://github.com/ZJU-REAL/Self-Braking-Tuning

项目主页: https://zju-real.github.io/SBT