⏶22
扩散语言模型在解码前就知道答案
发表
由
Pengxiang Li 提交

作者:
Pengxiang Li, Yefan Zhou,
Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang,
Soroush Vosoughi, Shiwei Liu


摘要
扩散语言模型(DLM)最近作为一种替代自回归方法出现,提供了并行序列生成和灵活的Token顺序。然而,由于双向注意力的成本以及高质量输出所需的大量精炼步骤,其推理速度仍然慢于自回归模型。在这项工作中,我们强调并利用了DLM早期答案收敛的一个被忽视的特性:在许多情况下,正确的答案可以通过半步精炼在最终解码步骤之前在内部识别出来,这在半自回归和随机重遮蔽调度下都成立。例如,在GSM8K和MMLU上,分别有高达97%和99%的实例仅使用一半的精炼步骤就可以正确解码。基于这一观察,我们引入了Prophet,一种无需训练的快速解码范式,它实现了早期提交解码。具体来说,Prophet使用排名靠前的两个预测候选项之间的置信度差距作为标准,动态地决定是继续精炼还是“全力以赴”(即一次性解码所有剩余Token)。它无缝集成到现有的DLM实现中,开销微乎其微,并且不需要额外的训练。在多个任务上对LLaDA-8B和Dream-7B进行的实证评估表明,Prophet将解码步骤的数量减少了高达3.4倍,同时保持了高质量的生成。这些结果将DLM解码重塑为何时停止采样的问题,并表明早期解码收敛提供了一种简单而强大的加速DLM推理的机制,与现有的加速技术互补。我们的代码可在https://github.com/pixeli99/Prophet公开获取。
在本文中,我们发现了一种扩散语言模型(DLM)的关键但被忽视的特性:早期答案收敛,即在最终解码步骤之前很久就能出现正确的答案。基于这一见解,我们提出了 Prophet,一种无需训练的快速解码范式,它动态监测置信度差距并触发早期提交解码。我们在 LLaDA-8B 和 Dream-7B 上的实验表明,Prophet 在准确率损失微乎其微的情况下实现了高达 3.4 倍的加速,为加速 DLM 推理提供了一个简单而强大的解决方案。