镜像推测解码:打破 LLM 推理中的串行障碍

发表
NikhilNikhil 提交
作者: Nikhil Bhendawade, Kumari Nishu, Arnav Kundu, Chris Bartels, Minsik Cho, Irina Belousova

摘要

AI 生成总结
Mirror Speculative Decoding 通过在异构加速器之间并行化推测执行,并使用多令牌推测流来减少草稿延迟而不损害接受率,从而加速大型语言模型的推理。
投机性解码通过使用草稿模型进行前瞻来加速 LLM 推理,但收益受到自回归草稿生成的成本限制:增加草稿大小会提高接受率,但会引入额外的延迟开销,从而加剧速度-准确性权衡。先前的方法(Medusa、Hydra、EAGLE)部分降低了草稿成本,但要么降低了接受率,要么引入了限制其扩展性的开销。我们提出了 Mirror Speculative Decoding(Mirror-SD),一种打破延迟-接受率权衡的推理算法。Mirror-SD 从并行于目标模型后缀的早期退出信号启动分支完整的滚动,并明确地将计算映射到异构加速器(GPU 和 NPU)上,以利用跨设备并行性。草稿模型向前推测目标模型的后缀以进行验证,而目标模型同时推测草稿模型的校正路径,将推测转换为两个互补的执行流水线。为了在不削弱接受语义的情况下进一步降低草稿延迟,我们增加了投机流式传输,使草稿模型每步发出多个 token。这种并行异构执行加上多 token 投机流式的双重策略将投机解码推向了高接受率和低开销的理想状态。在具有 14B 到 66B 参数的服务器级模型的 SpecBench 上,Mirror-SD 实现了持续的端到端收益,在各种任务中实现了 2.8x-5.8x 的实际时间加速,并比最强的基线 EAGLE3 平均提高了 30%。
查看 arXiv 页面查看 PDF

评论

NikhilNikhil
论文提交者

投机解码算法,其性能比最快的 SOTA 基线 Eagle 3 高出 30%。