⏶62
超越固定:扩散大语言模型的可变长度去噪
发表
由
Jiaqi Wang 提交
作者:
Jinsong Li,
Xiaoyi Dong,
Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin



摘要
扩散式大型语言模型(Diffusion Large Language Models, DLLMs)正成为主流自回归大型语言模型的一种强大替代方案,它能提供高效的并行生成和强大的全局上下文建模能力。然而,DLLMs的实际应用受到一个关键架构限制的阻碍:需要静态预定义生成长度。这种静态长度分配导致了一个棘手的权衡问题:长度不足会削弱模型在复杂任务上的性能,而长度过长则会带来巨大的计算开销,有时甚至导致性能下降。虽然其推理框架是固定的,但我们观察到模型本身拥有与给定任务的最佳响应长度相关的内部信号。为了弥合这一差距,我们利用这些潜在信号,并引入了DAEDAL,这是一种新颖的、无需训练的去噪策略,可为扩散式大型语言模型实现动态自适应长度扩展。DAEDAL分两个阶段运行:1)在去噪过程之前,DAEDAL从一个较短的初始长度开始,在一个序列补全指标的指导下,迭代地将其扩展到一个与任务大致匹配的长度。2)在去噪过程中,DAEDAL通过定位并扩展生成不充分的区域(通过插入掩码标记),动态地进行干预,以确保最终输出是完整充分的。在DLLMs上进行的大量实验表明,DAEDAL的性能与精心调优的固定长度基线相当,在某些情况下甚至更优,同时通过实现更高的有效词元比例(effective token ratio)提高了计算效率。通过解决静态长度限制,DAEDAL为DLLMs释放了新的潜力,弥合了其与自回归模型之间的关键差距,为更高效、更强大的生成能力铺平了道路。
主页:https://github.com/Li-Jinsong/DAEDAL