⏶12
前瞻推理:扩展推测解码
发表
由
Yichao Fu 提交
作者:
Yichao Fu, Rui Ge, Zelei Shao, Zhijie Deng, Hao Zhang
摘要
推理模型通过生成长长的思维链而表现出色,但解码由此产生的数千个令牌速度很慢。令牌级推测解码 (SD) 有所帮助,但其益处是有限的,因为随着 gamma 增长,整个 gamma 令牌猜测正确的几率呈指数下降。这意味着为更长的令牌草稿分配更多计算资源会遇到算法瓶颈——使得加速效果不明显且与硬件无关。我们通过 Lookahead Reasoning 提升了这一上限,它利用了第二个、步骤级的并行层。我们的关键洞察是,推理模型是逐步生成的,每一步只需要在语义上正确,而不需要精确的令牌匹配。在 Lookahead Reasoning 中,一个轻量级草稿模型提出几个未来步骤;目标模型在一个批处理过程中扩展每个提议,并且一个验证器保留语义上正确的步骤,同时让目标模型重新生成任何失败的步骤。令牌级 SD 仍然在每个推理步骤内运行,因此两层并行性是相乘的。我们在理论和经验上都表明,Lookahead Reasoning 提升了 SD 的峰值加速。在 GSM8K、AIME 和其他基准测试中,Lookahead Reasoning 将 SD 的加速从 1.4 倍提高到 2.1 倍,同时保持了答案质量,并且其加速效果随着 GPU 吞吐量的增加而更好地扩展。我们的代码可在 https://github.com/hao-ai-lab/LookaheadReasoning 获取。
本文介绍了前瞻推理(lookahead reasoning),这是一种步级推测解码(step-level speculative decoding),它与推测解码(speculative decoding)正交,用于加速大型推理模型(LRMs)的推理过程。