⏶19
dParallel:dLLM的可学习并行解码
发表
由
Zigeng Chen 提交

作者:
Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang

摘要
AI 生成总结
dParallel 是一种增强扩散大型语言模型并行解码的方法,在不影响性能的情况下显著减少了解码步数。扩散大型语言模型(dLLM)最近作为一种有前途的自回归生成替代方案引起了研究界的广泛关注,它提供了并行 token 预测和较低的推理延迟。然而,它们的并行解码潜力仍未得到充分探索,因为现有的开源模型仍然需要接近 token 长度的解码步数来确保性能。为了解决这个问题,我们介绍了 dParallel,一种简单而有效的方法,它解锁了 dLLM 的内在并行性以实现快速采样。我们发现并行解码的关键瓶颈源于掩码 token 的顺序确定性收敛。基于这一见解,我们引入了我们方法的核心:确定性强制蒸馏,一种新颖的训练策略,它蒸馏模型遵循其原始采样轨迹,同时强制它更快、并行地实现对掩码 token 的高确定性。跨各种基准的广泛实验表明,我们的方法可以在保持性能的同时显着减少解码步数。当应用于 LLaDA-8B-Instruct 模型时,dParallel 将 GSM8K 上的解码步数从 256 减少到 30,实现了 8.5 倍的速度提升而没有性能下降。在 MBPP 基准上,它将解码步数从 256 减少到 24,实现了 10.5 倍的速度提升,同时保持了准确性。我们的代码可在 https://github.com/czg1225/dParallel 获取。
我们提出了 dParallel,一种能够释放 dLLM 固有并行性以实现快速采样的新颖方法。我们的论文、代码、模型和数据集现已全部可用!
代码:https://github.com/czg1225/dParallel
论文:https://arxiv.org/pdf/2509.26488
模型:https://huggingface.co/Zigeng/dParallel-LLaDA-8B-instruct
数据:https://huggingface.co/datasets/Zigeng/dParallel_LLaDA_Distill_Data