⏶2
规划与预算:大语言模型推理中有效且高效的推理时伸缩
发表
由
Junhong Lin 提交
作者:
Junhong Lin,
Xinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou
摘要
大语言模型 (LLMs) 在复杂推理任务中取得了显著成功,但它们的推理过程仍然计算效率低下。我们观察到许多主流 LLM 中存在一个普遍的缺陷,即“过度思考”,模型即使对于简单的查询也会生成冗长且离题的推理过程。最近的研究试图通过强制执行固定的 token 预算来缓解这一问题,然而,这可能导致“思考不足”,尤其是在较难的问题上。通过经验分析,我们发现这种低效通常源于不明确的问题解决策略。为了将其形式化,我们开发了一个理论模型 BBAM (贝叶斯预算分配模型),该模型将推理建模为一系列不确定性变化的子问题,并引入 E^3 指标来衡量正确性与计算效率之间的权衡。基于 BBAM 的理论结果,我们提出了 Plan-and-Budget,这是一个模型无关的测试时框架,它将复杂查询分解为子问题,并使用自适应调度根据估计的复杂性分配 token 预算。Plan-and-Budget 提高了各种任务和模型的推理效率,实现了高达 +70% 的准确性提升、-39% 的 token 减少,以及 +187.5% 的 E^3 改进。值得注意的是,它使得一个较小的模型 (DS-Qwen-32B) 能够达到与一个较大模型 (DS-LLaMA-70B) 相当的效率——这表明 Plan-and-Budget 能够在无需重新训练的情况下弥合性能差距。我们的代码可在此处获取:anonymous.4open.science/r/P-and-B-6513/。
🔗 项目代码: https://github.com/junhongmit/P-and-B
🚀 在这项工作中,我们引入了 规划与预算(Plan-And-Budget),这是一个在测试时运行的框架,它通过结合结构化规划和不确定性感知计算分配来提高LLM的推理效率。无需再训练,只需更智能地使用token。
😆 要点:
LLM中的推理校准偏差
LLM经常对简单查询过度思考(冗长、浪费),或对困难查询思考不足(草率、不正确)。我们将这种不匹配视为当前推理中的核心低效问题。
贝叶斯预算分配模型 (BBAM)
我们将推理形式化为一系列具有不同不确定性的子问题。BBAM将更多token分配给认知不确定性较高的步骤,而将较少token分配给由偶发噪声主导的步骤。
规划与预算框架
ℰ³ 分数:一种新的效率感知有效性评估指标
定义为
ℰ³ = 准确度² / token数
,该指标奖励高准确度、低token使用的推理,同时惩罚浪费和粗心的推理。强大的实验结果
我们对 3 种推理任务和 4 种最先进的推理LLM广泛评估了“规划与预算”,并显示出以下改进:
早期步骤最为关键
多项式和余弦衰减调度器效果最佳,证实了早期推理步骤(不确定性最高时)应获得更多计算资源。
🧠 先规划后思考。边行进边预算。更智能的推理,从现在开始。