⏶9
Sparse-dLLM:通过动态缓存驱逐加速扩散大语言模型
发表
由
Liu Xiaoran 提交
作者: Yuerong Song,
Xiaoran Liu, Ruixiao Li, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
摘要
扩散式大语言模型(dLLMs)在推理和并行解码方面实现了突破,但在推理过程中存在着令人望而却步的二次方计算复杂度和内存开销问题。目前的缓存技术通过存储全层状态来加速解码,但这会占用大量内存,从而限制了长上下文应用。我们对dLLMs中注意力模式的分析揭示了其持续存在的跨层稀疏性,即关键的“令牌”(token)在不同解码步骤中始终保持显著,而低相关性的令牌则一直不重要,这为选择性缓存驱逐提供了思路。我们提出了Sparse-dLLM,这是首个将动态缓存驱逐与稀疏注意力通过延迟双向稀疏缓存相结合的无需训练的框架。该框架利用了令牌显著性在不同步骤中的稳定性,保留关键令牌,并使用注意力引导策略动态驱逐不重要的前缀/后缀条目。在LLaDA和Dream系列模型上的大量实验表明,Sparse-dLLM的吞吐量比原生dLLMs高出多达10倍,性能相当,峰值内存成本相似,在效率和效果上均优于以往方法。
扩散大型语言模型(dLLMs)在推理和并行解码方面取得了突破,但在推理过程中存在高昂的二次计算复杂度和内存开销问题。目前的缓存技术通过存储完整的层状态来加速解码,但这会占用大量内存,从而限制了长上下文应用。我们对 dLLM 中注意力模式的分析揭示了其持续的跨层稀疏性,即关键的“令牌”(token)在解码步骤中保持显著,而低相关性的“令牌”则始终不重要,这为选择性缓存驱逐提供了思路。我们提出了 Sparse-dLLM,这是首个无需训练的框架,它通过延迟双向稀疏缓存将动态缓存驱逐与稀疏注意力相结合。利用“令牌”显著性在不同步骤间的稳定性,该框架保留关键“令牌”,并使用一种注意力引导策略动态驱逐不重要的前缀/后缀条目。在 LLaDA 和 Dream 系列模型上进行的大量实验表明,Sparse-dLLM 的吞吐量比原生 dLLM 高出多达 10 倍,性能相当,峰值内存成本相似,在效率和效果上均优于以往的方法。