⏶47

Fast-dLLM v2：高效的块扩散 LLM

09月30日发表

10月08日由 Wu Chengyue 提交

作者: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie

摘要

AI 生成总结

Fast-dLLM v2 是一种块状扩散语言模型，可高效地转换预训练的自回归模型以进行并行文本生成，在不影响准确性的前提下实现了显著的速度提升。

自回归（AR）大语言模型（LLM）在广泛的自然语言任务中取得了卓越的性能，但其固有的顺序解码限制了推理效率。在这项工作中，我们提出了Fast-dLLM v2，一个经过精心设计的块扩散语言模型（dLLM），它能有效地将预训练的AR模型适配为dLLM，以实现并行文本生成，仅需约10亿个token的微调。与Dream（5800亿token）等全注意力扩散LLM相比，训练数据减少了500倍，同时保留了原始模型的性能。我们的方法引入了一种新颖的训练配方，将块扩散机制与互补的注意力掩码相结合，从而在不牺牲AR训练目标的情况下，实现块状双向上下文建模。为了进一步加速解码，我们设计了一种分层缓存机制：一个块级缓存，用于存储跨块的历史上下文表示；以及一个子块缓存，用于在部分解码的块内实现高效的并行生成。结合我们的并行解码流水线，Fast-dLLM v2在不影响生成质量的情况下，实现了比标准AR解码高达2.5倍的加速。在各种基准测试上的广泛实验表明，Fast-dLLM v2在准确性上与AR基线持平或超越，同时提供了dLLM中的最先进效率——标志着朝着快速准确LLM的实际部署迈出了重要一步。代码和模型将公开发布。

查看 arXiv 页面查看 PDF

Julien BLANCHON

这篇论文为什么不是日报？

Wu Chengyue

论文提交者

感谢您的关注！我们已提交给日报。

Wu Chengyue

论文提交者

https://cdn-uploads.huggingface.co/production/uploads/617526c9de8feb54b0ce45ad/LhpEfmJYG6yuT-j_XRtLz.mp4 Qwen2.5-7B 与 Fast-dLLM v2 (7B) 的实时吞吐量对比

Vadim Alperovich

这次演示使用了什么推理引擎？

Wu Chengyue

论文提交者

我们使用原始的 Hugging Face 推理。

Wu Chengyue

论文提交者

visualization_animation 这是生成过程的可视化。

Fast-dLLM v2：高效的块扩散 LLM

摘要

评论