使用预算指导引导LLM思考

发表
Junyan LiJunyan Li 提交
作者: Junyan Li, Wenshuo Zhao, Yang Zhang, Chuang Gan

摘要

最近的深度思考型大型语言模型常常进行大量的推理以提高性能,但这种冗长的推理并非总是可取的,因为它会导致过高的推理成本,而性能提升却不成比例。因此,在不牺牲性能的情况下控制推理长度变得非常重要,但在思考预算紧张的情况下仍然具有挑战性。我们提出了预算指导(budget guidance),这是一种简单而有效的方法,可以在无需对LLM进行任何微调的情况下,将LLMs的推理过程引导至目标预算。我们的方法引入了一个轻量级预测器,用于在下一个token生成过程中对剩余思考长度进行伽马分布建模。然后,这个信号被用于以软性的、token级别的方式指导生成,确保整体推理轨迹符合指定的思考预算。预算指导能够自然地控制思考长度,并在具有挑战性的数学基准上比基线方法显著提高了token效率。例如,在预算紧张的情况下,与基线方法相比,它在MATH-500基准上实现了高达26%的准确率提升,同时仅使用完整思考模型63%的思考token就保持了有竞争力的准确率。预算指导还可以泛化到更广泛的任务领域,并表现出涌现能力,例如估计问题的难度。源代码可在以下网址获取:https://github.com/UMass-Embodied-AGI/BudgetGuidance
查看 arXiv 页面查看 PDF

评论

Junyan LiJunyan Li
论文提交者
此评论已隐藏。