⏶0
dInfer:扩散语言模型的有效推理框架
发表
由
Da Zheng 提交
作者: Yuxin Ma, Lun Du, Lanning Wei, Kun Chen, Qian Xu, Kangyu Wang, Guofeng Feng, Guoshan Lu, Lin Liu, Xiaojing Qi, Xinyuan Zhang, Zhen Tao, Haibo Feng, Ziyun Jiang, Ying Xu, Zenan Huang, Yihong Zhuang, Haokai Xu, Jiaqi Hu, Zhenzhong Lan, Junbo Zhao, Jianguo Li, Da Zheng
摘要
AI 生成总结
dInfer 是一个高效且可扩展的基于扩散的大型语言模型推理框架,在不损害输出质量的情况下实现了比现有系统显著的速度提升。基于扩散的大型语言模型(dLLMs)作为自回归(AR)LLMs的有前景的替代方案出现,利用去噪生成来实现固有的并行性。尽管越来越多的开源dLLM模型涌现,但它们的广泛采用仍然受到缺乏标准化且高效的推理框架的限制。我们提出了dInfer,一个高效且可扩展的dLLM推理框架。dInfer将推理管线分解为四个模块化组件——模型、扩散迭代管理器、解码策略和KV缓存管理器——并为每个组件集成新颖的算法以及系统级优化。通过这种算法创新和系统增强的结合,dInfer在不影响LLaDA-MoE的输出质量的情况下实现了显著的效率提升。在批处理大小为1时,它在HumanEval上超过了每秒1100个token,并在8times H800 GPU上的六个基准测试中平均每秒超过800个token。与 prior systems 相比,dInfer在保持相似的模型性能的情况下,速度比Fast-dLLM快10倍。即使与AR模型(具有相当数量的激活参数和性能)QWen2.5-3B相比,后者已通过最新的vLLM推理引擎进行了高度优化,dInfer仍实现了2-3倍的速度提升。dInfer的实现已开源:https://github.com/inclusionAI/dInfer。
基于扩散的大型语言模型(dLLM)已成为自回归(AR)LLM 的一种有前景的替代方案,它利用去噪生成来实现固有的并行性。越来越多的开源 dLLM 模型涌现,但它们的广泛采用仍然受到缺乏标准化和高效推理框架的限制。我们提出了 dInfer,一个高效且可扩展的 dLLM 推理框架。dInfer 将推理管道分解为四个模块化组件——模型、扩散迭代管理器、解码策略和 KV 缓存管理器——并为每个组件集成新颖的算法以及系统级优化。通过算法创新和系统增强的结合,dInfer 在不损害 LLaDA-MoE 的输出质量的情况下实现了显著的效率提升。在批处理大小为 1 时,它在 HumanEval 上超过 1,100 个 token/秒,在 8 块 H800 GPU 上的六个基准测试中的平均速度超过 800 个 token/秒。与之前的系统相比,dInfer 的速度比 Fast-dLLM 快 10 倍,同时保持相似的模型性能。即使与 AR 模型(具有相当数量的激活参数和相似的性能)QWen2.5-3B 相比,后者已通过最新的 vLLM 推理引擎进行了高度优化,dInfer 仍然实现了 2-3 倍的速度提升。dInfer 的实现已在此 URL 开源。