CLaSp:用于自推测解码的上下文层跳过

发表
Longze ChenLongze Chen 提交
作者: Longze ChenLongze Chen, Renke Shan, Huiming Wang, Wang LuLu Wang, Ziqiang Liu, Run Luo, Jiawei Wang, Hamid Alinejad-Rokny, Min Yang

摘要

推测解码(Speculative Decoding, SD)是一种加速大型语言模型(LLM)解码过程的有前景的方法。SD的效率主要取决于草稿模型和验证模型之间的一致性。然而,现有的草稿生成方法通常需要训练额外的模块,这在实现和确保与各种LLM的兼容性方面可能具有挑战性。在本文中,我们提出了CLaSp,一种用于自推测解码的上下文内层跳跃策略。与以往的方法不同,CLaSp不需要额外的草稿生成模块或额外的训练。相反,它通过跳过验证模型的中间层来构建一个压缩的草稿模型,从而采用了一种即插即用的机制。具体来说,我们开发了一种动态规划算法,该算法通过利用上次验证阶段的完整隐藏状态作为目标来优化层跳跃过程。这使得CLaSp能够在每个验证阶段后动态调整其层跳跃策略,而不依赖于预先优化的跳过层集合。在各种下游任务上的实验结果表明,CLaSp在LLaMA3系列模型上实现了1.3倍至1.7倍的加速,同时不改变生成文本的原始分布。
查看 arXiv 页面查看 PDF

评论

Longze ChenLongze Chen
论文作者
论文提交者

我们提出了 CLaSp,一种用于自推测解码的上下文内层跳过策略。与现有方法不同,CLaSp 不需要额外的草稿模块或额外训练。相反,它通过跳过验证模型的中间层来构建一个压缩的草稿模型,采用即插即用机制。

Wanwei HeWanwei He

出色的工作!

runluorunluo

很棒的工作!

Wang LuWang Lu
论文作者
此评论已隐藏。
Wang LuWang Lu
论文作者
此评论已隐藏。