⏶5
SpecReason:通过推测推理实现快速准确的推理时计算
04月10日发表
04月14日由
Rui Pan 提交
作者:
Rui Pan, Yinwei Dai,
Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali
摘要
最近,推理时计算的进步通过使用大型推理模型 (LRM) 生成长思维链 (CoT),显著提高了复杂任务的性能。然而,这种提高的准确性是以高推理延迟为代价的,这是由于生成的推理序列的长度和解码的自回归性质造成的。我们解决这些开销的关键见解是,LRM 推理及其嵌入的推理对近似具有高度容忍性:复杂任务通常分解为更简单的步骤,每个步骤都基于它为下游步骤提供的语义洞察力而不是它生成的精确令牌来带来效用。因此,我们引入了 SpecReason,这是一个自动加速 LRM 推理的系统,它使用轻量级模型(推测性地)执行更简单的中间推理步骤,并仅保留昂贵的基础模型来评估(并可能纠正)推测性输出。重要的是,SpecReason 专注于利用思维令牌的语义灵活性来保持最终答案的准确性,这与先前的推测技术(最值得注意的是推测性解码)互补,推测性解码要求每一步都具有令牌级等效性。在各种推理基准测试中,SpecReason 比 vanilla LRM 推理实现了 1.5-2.5 倍的加速,同时将准确率提高了 1.0-9.9%。与没有 SpecReason 的推测性解码相比,它们的组合额外减少了 19.4-44.2% 的延迟。我们在 https://github.com/ruipeterpan/specreason 开源了 SpecReason。
推理时计算的最新进展通过使用大型推理模型 (LRM) 生成长链思维 (CoT) 显着提高了复杂任务的性能。然而,这种提高的准确性是以高推理延迟为代价的,这归因于生成的推理序列的长度和解码的自回归性质。我们解决这些开销的关键见解是,LRM 推理及其嵌入的推理对近似具有高度容忍性:复杂任务通常分解为更简单的步骤,每个步骤都基于它为下游步骤提供的语义洞察力而不是它生成的精确 tokens 来带来效用。因此,我们引入了 SpecReason,这是一个通过使用轻量级模型(推测性地)执行更简单的中间推理步骤并仅保留昂贵的基础模型来评估(并可能纠正)推测性输出来自动加速 LRM 推理的系统。重要的是,SpecReason 专注于利用思维 tokens 的语义灵活性来保持最终答案的准确性,这与之前的推测技术(最显着的是推测性解码)互补,后者要求每个步骤都具有 token 级别的等效性。在各种推理基准测试中,SpecReason 比原始 LRM 推理实现了 1.5-2.5 倍的加速,同时将准确率提高了 1.0-9.9%。与没有 SpecReason 的推测性解码相比,它们的组合额外减少了 19.4-44.2% 的延迟。我们在 https://github.com/ruipeterpan/specreason 开源了 SpecReason。