⏶6
循环深度模型的高效并行采样器及其与扩散语言模型的联系
发表
由
Jonas Geiping 提交
作者: Jonas Geiping, Xinyu Yang,
Guinan Su
摘要
AI 生成总结
一种新的扩散强制采样器可以加速循环深度语言模型中的令牌生成,在无需调整的情况下提供 5 倍的速度提升。具有循环深度的语言模型,在考虑 Transformer 时也称为通用或循环模型,其定义是通过重复层来增加计算能力。最近在预训练方面的努力表明,这些架构可以在现代语言建模任务中扩展,同时在推理任务中表现出优势。在这项工作中,我们考察了循环深度模型和扩散语言模型之间的关系。基于它们的相似性,我们开发了一种新的扩散强制采样器来加速这些模型的生成。该采样器通过在模型的每次前向传播中解码新 token 来进行,同时这些 token 的潜在状态可以通过循环并行进一步精炼。理论上,使用我们的采样器进行生成比在现代硬件上使用相同时间预算的基线自回归生成更具表现力。此外,这个基于扩散文献原理的采样器可以直接应用于现有的 3.5B 循环深度 Transformer,无需任何调整,可以提高高达 5 倍的速度。因此,我们的研究不仅为在推理时并行化循环深度模型的额外计算提供了一种有效的机制,而且还表明这类模型可以被自然地视为强大的连续(尽管是因果的)扩散语言模型。



代码可以在 https://github.com/seal-rg/recurrent-pretraining 找到