⏶39
Fast-dLLM:通过启用 KV 缓存和并行解码实现 Diffusion LLM 的免训练加速
发表
由
Shizhe Diao 提交
作者: Chengyue Wu,
Hao Zhang,
Shuchen Xue,
Zhijian Liu, Shizhe Diao, Ligeng Zhu, Ping Luo, Song Han, Enze Xie


摘要
基于扩散的大型语言模型(Diffusion LLMs)在具有并行解码能力的非自回归文本生成方面显示出了前景。然而,由于缺乏 Key-Value (KV) 缓存以及同时解码多个 token 时质量下降,开源 Diffusion LLMs 的实际推理速度通常落后于自回归模型。为了弥合这一差距,我们引入了一种新颖的块级近似 KV 缓存机制,专为双向扩散模型量身定制,能够在性能下降可忽略的情况下实现缓存重用。此外,我们发现并行解码中生成质量下降的根本原因是在条件独立性假设下 token 依赖关系的破坏。为了解决这个问题,我们提出了一种置信度感知的并行解码策略,有选择地解码超过置信度阈值的 token,从而减轻依赖性违反并保持生成质量。在 LLaDA 和 Dream 模型上对多个 LLM 基准进行的实验结果表明,吞吐量提高了高达 27.6 倍,而准确性损失极小,缩小了与自回归模型的性能差距,为 Diffusion LLMs 的实际部署铺平了道路。
🚀 Fast-dLLM: 通过 KV 缓存和并行解码实现扩散 LLM 提速 27.6 倍 💥