⏶2

规划与预算：大语言模型推理中有效且高效的推理时伸缩

05月22日发表

06月03日由 Junhong Lin 提交

作者: Junhong Lin, Xinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou

摘要

大语言模型 (LLMs) 在复杂推理任务中取得了显著成功，但它们的推理过程仍然计算效率低下。我们观察到许多主流 LLM 中存在一个普遍的缺陷，即“过度思考”，模型即使对于简单的查询也会生成冗长且离题的推理过程。最近的研究试图通过强制执行固定的 token 预算来缓解这一问题，然而，这可能导致“思考不足”，尤其是在较难的问题上。通过经验分析，我们发现这种低效通常源于不明确的问题解决策略。为了将其形式化，我们开发了一个理论模型 BBAM (贝叶斯预算分配模型)，该模型将推理建模为一系列不确定性变化的子问题，并引入 E^3 指标来衡量正确性与计算效率之间的权衡。基于 BBAM 的理论结果，我们提出了 Plan-and-Budget，这是一个模型无关的测试时框架，它将复杂查询分解为子问题，并使用自适应调度根据估计的复杂性分配 token 预算。Plan-and-Budget 提高了各种任务和模型的推理效率，实现了高达 +70% 的准确性提升、-39% 的 token 减少，以及 +187.5% 的 E^3 改进。值得注意的是，它使得一个较小的模型 (DS-Qwen-32B) 能够达到与一个较大模型 (DS-LLaMA-70B) 相当的效率——这表明 Plan-and-Budget 能够在无需重新训练的情况下弥合性能差距。我们的代码可在此处获取：anonymous.4open.science/r/P-and-B-6513/。

查看 arXiv 页面查看 PDF

Junhong Lin

论文作者

论文提交者

🔗 项目代码： https://github.com/junhongmit/P-and-B

🚀 在这项工作中，我们引入了 规划与预算（Plan-And-Budget），这是一个在测试时运行的框架，它通过结合结构化规划和不确定性感知计算分配来提高LLM的推理效率。无需再训练，只需更智能地使用token。

😆 要点：

LLM中的推理校准偏差
LLM经常对简单查询过度思考（冗长、浪费），或对困难查询思考不足（草率、不正确）。我们将这种不匹配视为当前推理中的核心低效问题。
贝叶斯预算分配模型 (BBAM)
我们将推理形式化为一系列具有不同不确定性的子问题。BBAM将更多token分配给认知不确定性较高的步骤，而将较少token分配给由偶发噪声主导的步骤。
规划与预算框架

- **规划步骤：** 使用轻量级规划将查询分解为子问题。  

- **预算步骤：** 使用基于衰减的启发式方法（线性、多项式、余弦等）分配token。  

该框架与模型无关、仅用于推理，并兼容任何LLM。

ℰ³ 分数：一种新的效率感知有效性评估指标
定义为 ℰ³ = 准确度² / token数，该指标奖励高准确度、低token使用的推理，同时惩罚浪费和粗心的推理。
强大的实验结果
我们对 3 种推理任务和 4 种最先进的推理LLM广泛评估了“规划与预算”，并显示出以下改进：

- 📈 准确度：高达 **+70%**

- 🔻 token 使用量：减少高达 **–39%**

- 🔥 ℰ³：高达 **+187.5%**

在智能体规划任务中，我们的方法使小型 32B 模型达到了 70B 模型的效率水平，*无需微调*。

早期步骤最为关键
多项式和余弦衰减调度器效果最佳，证实了早期推理步骤（不确定性最高时）应获得更多计算资源。

🧠 先规划后思考。边行进边预算。更智能的推理，从现在开始。

规划与预算：大语言模型推理中有效且高效的推理时伸缩

摘要

评论