规划与预算:大语言模型推理中有效且高效的推理时伸缩

发表
Junhong LinJunhong Lin 提交
作者: Junhong LinJunhong Lin, Xinyue ZengXinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou

摘要

大语言模型 (LLMs) 在复杂推理任务中取得了显著成功,但它们的推理过程仍然计算效率低下。我们观察到许多主流 LLM 中存在一个普遍的缺陷,即“过度思考”,模型即使对于简单的查询也会生成冗长且离题的推理过程。最近的研究试图通过强制执行固定的 token 预算来缓解这一问题,然而,这可能导致“思考不足”,尤其是在较难的问题上。通过经验分析,我们发现这种低效通常源于不明确的问题解决策略。为了将其形式化,我们开发了一个理论模型 BBAM (贝叶斯预算分配模型),该模型将推理建模为一系列不确定性变化的子问题,并引入 E^3 指标来衡量正确性与计算效率之间的权衡。基于 BBAM 的理论结果,我们提出了 Plan-and-Budget,这是一个模型无关的测试时框架,它将复杂查询分解为子问题,并使用自适应调度根据估计的复杂性分配 token 预算。Plan-and-Budget 提高了各种任务和模型的推理效率,实现了高达 +70% 的准确性提升、-39% 的 token 减少,以及 +187.5% 的 E^3 改进。值得注意的是,它使得一个较小的模型 (DS-Qwen-32B) 能够达到与一个较大模型 (DS-LLaMA-70B) 相当的效率——这表明 Plan-and-Budget 能够在无需重新训练的情况下弥合性能差距。我们的代码可在此处获取:anonymous.4open.science/r/P-and-B-6513/。
查看 arXiv 页面查看 PDF

评论

Junhong LinJunhong Lin
论文作者
论文提交者

🔗 项目代码: https://github.com/junhongmit/P-and-B

🚀 在这项工作中,我们引入了 规划与预算(Plan-And-Budget),这是一个在测试时运行的框架,它通过结合结构化规划不确定性感知计算分配来提高LLM的推理效率。无需再训练,只需更智能地使用token。

😆 要点

  1. LLM中的推理校准偏差

    LLM经常对简单查询过度思考(冗长、浪费),或对困难查询思考不足(草率、不正确)。我们将这种不匹配视为当前推理中的核心低效问题。

  2. 贝叶斯预算分配模型 (BBAM)

    我们将推理形式化为一系列具有不同不确定性的子问题。BBAM将更多token分配给认知不确定性较高的步骤,而将较少token分配给由偶发噪声主导的步骤。

  3. 规划与预算框架

- **规划步骤:** 使用轻量级规划将查询分解为子问题。  

- **预算步骤:** 使用基于衰减的启发式方法(线性、多项式、余弦等)分配token。  

该框架与模型无关、仅用于推理,并兼容任何LLM。
  1. ℰ³ 分数:一种新的效率感知有效性评估指标

    定义为 ℰ³ = 准确度² / token数,该指标奖励高准确度、低token使用的推理,同时惩罚浪费和粗心的推理。

  2. 强大的实验结果

    我们对 3 种推理任务4 种最先进的推理LLM广泛评估了“规划与预算”,并显示出以下改进:

- 📈 准确度:高达 **+70%**

- 🔻 token 使用量:减少高达 **–39%**

- 🔥 ℰ³:高达 **+187.5%**

在智能体规划任务中,我们的方法使小型 32B 模型达到了 70B 模型的效率水平,*无需微调*。
  1. 早期步骤最为关键

    多项式和余弦衰减调度器效果最佳,证实了早期推理步骤(不确定性最高时)应获得更多计算资源。


🧠 先规划后思考。边行进边预算。更智能的推理,从现在开始。