扩散 LLMs 可以通过离散扩散强制实现比自回归更快的推理

发表
xuchenkaixuchenkai 提交
作者: Xu Wang, Chenkai Xu, Yijie JinYijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng

摘要

扩散大型语言模型 (dLLM) 已成为自回归 (AR) LLM 的一种有前景的文本生成替代方案,具有在单次迭代中解码多个标记的潜力。然而,现有开源 dLLM 中没有一个能在推理速度上超越同等规模的 AR LLM。本文基于一种简单有效的策略——离散扩散强制 (D2F) 打破了这一障碍。D2F 赋予 dLLM 两项关键能力:(1) 分块自回归生成以实现 KV 缓存利用;(2) 无需完成先前块即可预测后续标记以实现块间并行解码。通过这种方式,原始 dLLM 被改造为 AR-扩散混合范式,以实现高效推理。D2F 可以通过基于预训练 dLLM 的非对称蒸馏过程实现。我们进一步提出了一种流水线并行解码算法,该算法可在效率和效能之间进行权衡。从经验上看,D2F dLLM 在 GSM8K 上的推理速度比 LLaMA3 和 Qwen2.5 快 2.5 倍以上。与 LLaDA 和 Dream 等原始 dLLM 相比,加速可达 50 倍以上,同时保持可比较的输出质量。代码可在 https://github.com/zhijie-group/Discrete-Diffusion-Forcing 获得。
查看 arXiv 页面查看 PDF

评论

xuchenkaixuchenkai
论文提交者

扩散大语言模型(dLLMs)已成为自回归(AR)LLM 进行文本生成的一种有前景的替代方案,并有可能在一次迭代中解码多个 token。

然而,现有开源 dLLM 都未能实现比同等大小的 AR LLM 更快的推理速度。本文基于一种简单有效的策略——离散扩散强制(D2F)打破了这一障碍。D2F 赋予 dLLM 两项关键能力:(1)块式自回归生成以实现 KV 缓存利用;(2)预测后续 token,而无需完成前一个块以进行块间并行解码。通过这种方式,香草 dLLM 被翻新为 AR-扩散混合范式以实现高效推理。D2F 可以通过基于预训练 dLLM 的非对称蒸馏过程实现。我们进一步提出了一种流水线并行解码算法,该算法可以在效率和效用之间进行权衡。从经验上看,D2F dLLM 在 GSM8K 上实现了比 LLaMA3 和 Qwen2.5 快 2.5 倍以上的推理速度。与 LLaDA 和 Dream 等香草 dLLM 相比,在保持可比输出质量的同时,加速可以超过 50 倍。代码可在 https://github.com/zhijie-group/Discrete-Diffusion-Forcing 获得。