⏶7
神秘的语言模型
发表
由
Subham Sekhar Sahoo 提交

作者: Subham Sekhar Sahoo, Zhihan Yang, Yash Akhauri, Johnna Liu, Deepansha Singh, Zhoujun Cheng, Zhengzhong Liu, Eric Xing, John Thickstun, Arash Vahdat
摘要
扩散式语言模型通过实现并行和可控生成,为自回归(AR)模型提供了一个引人注目的替代方案。在这类模型中,掩码扩散模型(MDMs)表现出最强的性能,但在困惑度方面仍逊于AR模型,并且缺乏关键的推理时间效率特性——最显著的是KV缓存。在这项工作中,我们介绍了Eso-LMs,这是一个融合了AR和MDM范式的新模型家族,它能够在它们的困惑度之间实现平滑插值,同时克服各自的局限性。Eso-LMs在标准语言建模基准上创造了新的最先进水平。至关重要的是,我们是<b>首次为MDMs引入KV缓存</b>同时保持并行生成,显著提高了推理效率。结合优化的采样策略,我们的方法实现了比标准MDMs快<b>65倍</b>的推理速度,比之前的半自回归方法快<b>4倍</b>的推理速度。我们提供了项目页面上的代码和模型检查点:
<a href="http://s-sahoo.github.io/Eso-LMs">http://s-sahoo.github.io/Eso-LMs</a>

首个支持KV缓存且不影响并行生成的Diffusion LM。
🔥 在采样速度-质量帕累托前沿树立新SOTA 🔥
🚀 比MDLM快65倍
⚡ 比Block Diffusion快4倍
网页
Colab
代码