EAGER:用于自适应推理时间缩放的熵感知生成

发表
Daniel ScalenaDaniel Scalena 提交
作者: Daniel ScalenaDaniel Scalena, Leonidas Zotos, Elisabetta Fersini, Malvina Nissim, Ahmet Üstün

摘要

AI 生成总结
EAGer 是一种无需训练的方法,它使用 token 级别的熵来优化计算资源并提高在复杂推理任务上的性能。
随着推理语言模型和测试时扩展方法作为提高模型性能范式的兴起,通常需要大量的计算来从同一提示生成多个候选序列。这使得可以探索不同的推理路径以获得正确的解决方案,但为每个提示分配相同的计算预算。基于不同提示具有不同复杂度和计算需求程度的假设,我们提出了 EAGer,一种无需训练的生成方法,它通过词元级熵分布利用模型不确定性来减少冗余计算并同时提高整体性能。EAGer 仅在存在高熵词元时才允许分支到多个推理路径,然后将节省的计算预算重新分配给最需要探索替代路径的实例。我们发现在 AIME 2025 等复杂推理基准上,跨多个开源模型,EAGer 可以在不访问目标标签的情况下重新分配预算,在推理长度和 Pass@k 方面实现了最佳的效率-性能权衡。当目标标签可访问时,EAGer 生成的词元数量比 Full Parallel Sampling 少高达 65%(从而节省计算),并且 Pass@k 提高了高达 37%。
查看 arXiv 页面查看 PDF
EAGER:用于自适应推理时间缩放的熵感知生成

评论

Daniel ScalenaDaniel Scalena
论文作者
论文提交者

我们提出了 EAGer 🧠,展示了我们可以通过让模型将计算集中在最重要的地方来达到更高的效率和更好的效果。EAGer 通过监控 token 级别的 不确定性,动态分配 LLM 中的计算。

结果表明,EAGer 在 AIME 等推理基准测试中,将 token 使用量减少高达 80%,并将性能提升 13%(无标签)和高达 37%(有标签),从而推动了 30 亿至 200 亿参数模型在帕累托前沿的进步。

如何实现?我们在生成过程中跟踪 token 熵:高熵(不确定性)会触发分支以探索新的推理路径,而低熵则继续单条路径。这使得 EAGer 能够高效地重复利用预算,每个 prompt 的上限为 M 个序列。在简单的 prompt 上,计算量被节省;在困难的 prompt 上(那些达到上限的 prompt),保存的预算会自动重新分配,无需标签或重新训练!EAGer 的完整版本甚至利用任务失败(如果可用)来更好地定位挣扎的 prompt。