Fast-dLLM v2:高效的块扩散 LLM

发表
Wu ChengyueWu Chengyue 提交
作者: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian LiuZhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie

摘要

AI 生成总结
Fast-dLLM v2 是一种块状扩散语言模型,可高效地转换预训练的自回归模型以进行并行文本生成,在不影响准确性的前提下实现了显著的速度提升。
自回归(AR)大语言模型(LLM)在广泛的自然语言任务中取得了卓越的性能,但其固有的顺序解码限制了推理效率。在这项工作中,我们提出了Fast-dLLM v2,一个经过精心设计的块扩散语言模型(dLLM),它能有效地将预训练的AR模型适配为dLLM,以实现并行文本生成,仅需约10亿个token的微调。与Dream(5800亿token)等全注意力扩散LLM相比,训练数据减少了500倍,同时保留了原始模型的性能。我们的方法引入了一种新颖的训练配方,将块扩散机制与互补的注意力掩码相结合,从而在不牺牲AR训练目标的情况下,实现块状双向上下文建模。为了进一步加速解码,我们设计了一种分层缓存机制:一个块级缓存,用于存储跨块的历史上下文表示;以及一个子块缓存,用于在部分解码的块内实现高效的并行生成。结合我们的并行解码流水线,Fast-dLLM v2在不影响生成质量的情况下,实现了比标准AR解码高达2.5倍的加速。在各种基准测试上的广泛实验表明,Fast-dLLM v2在准确性上与AR基线持平或超越,同时提供了dLLM中的最先进效率——标志着朝着快速准确LLM的实际部署迈出了重要一步。代码和模型将公开发布。
查看 arXiv 页面查看 PDF

评论

Julien BLANCHONJulien BLANCHON

这篇论文为什么不是日报?

Wu ChengyueWu Chengyue
论文提交者

感谢您的关注!我们已提交给日报。

Wu ChengyueWu Chengyue
论文提交者

https://cdn-uploads.huggingface.co/production/uploads/617526c9de8feb54b0ce45ad/LhpEfmJYG6yuT-j_XRtLz.mp4 Qwen2.5-7B 与 Fast-dLLM v2 (7B) 的实时吞吐量对比

Vadim AlperovichVadim Alperovich

这次演示使用了什么推理引擎?

Wu ChengyueWu Chengyue
论文提交者

我们使用原始的 Hugging Face 推理。

Wu ChengyueWu Chengyue
论文提交者

visualization_animation 这是生成过程的可视化。