“种子”扩散模型:具有高速推理能力的大规模扩散语言模型

发表
Yuxuan SongYuxuan Song 提交
作者: Yuxuan SongYuxuan Song, Zheng Zhang, Luo ChengCheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge ZhangGe Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou

摘要

我们推出了 Seed Diffusion Preview,这是一个基于离散状态扩散的大规模语言模型,提供极快的推理速度。得益于非序列化的并行生成方式,离散扩散模型显著提升了速度,缓解了逐词元解码固有的延迟问题,这一点最近已得到证明(例如,Mercury Coder、Gemini Diffusion)。Seed Diffusion Preview 在 H20 GPU 上实现了 2,146 词元/秒的推理速度,同时在一系列标准代码评估基准测试中保持了有竞争力的性能,速度明显快于当代的 Mercury 和 Gemini Diffusion 模型,在代码模型的速度-质量帕累托前沿上确立了新的业界顶尖水平。
查看 arXiv 页面查看 PDF
“种子”扩散模型:具有高速推理能力的大规模扩散语言模型

评论

Yuxuan SongYuxuan Song
论文作者
论文提交者

我们推出了 Seed Diffusion Preview,这是一种基于离散态扩散的大规模语言模型,提供极快的推理速度。由于非顺序的并行生成,离散扩散模型提供了显著的加速,以缓解逐令牌解码固有的延迟,正如最近所证明的那样(例如,Mercury Coder,Gemini Diffusion)。Seed Diffusion Preview 在 H20 GPU 上实现了 2,146 令牌/秒的推理速度,同时在标准代码评估基准的扫描中保持了具有竞争力的性能,显着快于当前的 Mercury 和 Gemini Diffusion,为代码模型的速度-质量帕累托前沿建立了新的最先进水平。

WuWu

太酷了

Cameron BarkerCameron Barker

在主图上,同样硬件下 seed coder instruct 的每秒 token 数会是多少?

Yuxuan SongYuxuan Song
论文作者
论文提交者

您好,感谢您的关注。我们刚刚在我们的部署设置中对 seed-coder-instruct 进行了评估,速度是 344 token/s。这个建议很好!会考虑更新主图 : )

ZINWIN(Zuojun-Ye)ZINWIN(Zuojun-Ye)

会开源吗?

Pengxiang LiPengxiang Li

干得好

Peiyu WangPeiyu Wang

干得好

John RachwanJohn Rachwan

这看起来太棒了!有计划开源吗?👀

Aman GuptaAman Gupta

非常酷!我最近在 llama.cpp 中添加了对 LLaDA 和 Dream 模型的支持,如果你打算开源推理代码,我很乐意添加支持!

nieshennieshen

> 很酷!我最近在llama.cpp中添加了对LLaDA和Dream模型的支持,如果您计划开源推理代码,我很乐意添加支持!

哇,出色的工作!能给我LLaDA和Dream在llama.cpp中的链接吗?

Tariq ShamsTariq Shams

比 Gemini 更快的速度,太棒了!如果你开源,我很乐意试用一下!