扩散语言模型综述

发表
Zhiqiang ShenZhiqiang Shen 提交
作者: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen

摘要

扩散语言模型(DLMs)正迅速崛起,成为主流自回归(AR)范式的强大且有前景的替代方案。通过迭代去噪过程并行生成token,DLMs在降低推理延迟和捕获双向上下文方面具有固有的优势,从而能够对生成过程进行细粒度控制。在实现数倍加速的同时,最近的进展使得DLMs能够表现出与自回归模型相媲美的性能,使其成为各种自然语言处理任务的引人注目的选择。在本综述中,我们对当前的DLM领域进行了全面的概述。我们追溯了其演变以及与其他范式(如自回归和掩码语言模型)的关系,并涵盖了基本原理和最先进的模型。我们的工作提供了一个最新的、全面的分类法,并对当前技术进行了深入分析,从预训练策略到高级后训练方法。本综述的另一个贡献是对DLM推理策略和优化进行了彻底的回顾,包括解码并行性、缓存机制和生成质量的改进。我们还重点介绍了DLM多模态扩展的最新方法,并阐述了它们在各种实际场景中的应用。此外,我们的讨论还解决了DLM的局限性和挑战,包括效率、长序列处理和基础设施要求,同时概述了未来的研究方向,以维持这一快速发展领域的进步。项目GitHub可在 https://github.com/VILA-Lab/Awesome-DLMs 获取。
查看 arXiv 页面查看 PDF

评论

Zhiqiang ShenZhiqiang Shen
论文提交者

本调查全面概述了当前的扩散语言模型领域。