KV 缓存对于扩散 LLM 来说,注意力就是一切

发表
Mukul RanjanMukul Ranjan 提交
作者: Nguyen Tri QuanQuan Nguyen-Tri, Mukul RanjanMukul Ranjan, Zhiqiang Shen

摘要

AI 生成总结
Elastic-Cache 优化了扩散大型语言模型中的键值缓存管理,以在不牺牲预测准确性的情况下减少解码延迟。
这项工作研究了如何自适应地重新计算扩散大型语言模型(DLM)的关键值(KV)缓存,以最大化预测准确性同时最小化解码延迟。先前的方法的解码器在每个去噪步骤和层中重新计算所有 token 的 QKV,尽管 KV 状态在大多数步骤中变化不大,尤其是在浅层中,这导致大量冗余。我们有三个观察:(1)远处的 {bf MASK} token 主要起到长度偏置的作用,并且可以超过活动预测窗口进行块级缓存;(2)KV 动态随深度增加,表明从较深层开始选择性刷新就足够了;(3)最受关注的 token 表现出最小的 KV 漂移,为其他 token 提供了保守的缓存变化下限。基于这些观察,我们提出了 {bf Elastic-Cache},一种无需训练、架构无关的策略,它同时决定 {何时} 刷新(通过对最受关注的 token 进行注意力感知漂移测试)和 {在哪里} 刷新(通过从选定层开始的深度感知调度,同时重用浅层缓存和窗口外的 MASK 缓存)。与固定周期方案不同,Elastic-Cache 对扩散 LLM 执行自适应的、层感知的缓存更新,减少冗余计算并加速解码,同时对生成质量的损失微乎其微。在 LLaDA-Instruct、LLaDA-1.5 和 LLaDA-V 上对数学推理和代码生成任务的实验表明,一致的加速效果:GSM8K(256 token)加速 8.7 倍,长序列加速 45.1 倍,HumanEval 加速 4.8 倍,同时始终保持比基线更高的准确性。我们的方法在 GSM8K 上实现的吞吐量(6.8 倍)显著高于现有的基于置信度的方法,同时保持了生成质量,从而能够实际部署扩散 LLM。
查看 arXiv 页面查看 PDF

评论

Mukul RanjanMukul Ranjan
论文作者
论文提交者

🚀 扩散 LLM 的 KV 缓存只需要注意力 🚀

让扩散 LLM 实用化!我们引入了 Elastic-Cache,这是第一个用于扩散语言模型的自适应、层感知 KV 缓存策略,可在不牺牲生成质量的情况下实现大规模加速。

🚀 智能缓存更新:自适应地决定何时刷新(注意力感知漂移检测)和在哪里刷新(深度选择性更新),消除去噪步骤中的冗余计算。

🚀🚀 卓越的加速:在 GSM8K 上实现了 8.7 倍的更快推理,在长序列上实现了 45.1 倍,在 HumanEval 上实现了 4.8 倍,同时与基线相比,准确率保持不变甚至有所提高。

🚀🚀🔥 无需训练且通用:可直接用于任何扩散 LLM 架构。无需重新训练,即插即用!

🔗 论文:https://arxiv.org/abs/2510.14973
🔗 项目页面:https://vila-lab.github.io/elastic-cache-webpage/