⏶22

扩散语言模型在解码前就知道答案

08月27日发表

08月28日由 Pengxiang Li 提交

作者: Pengxiang Li, Yefan Zhou, Dilxat Muhtar, Lu Yin, Shilin Yan, Li Shen, Yi Liang, Soroush Vosoughi, Shiwei Liu

摘要

扩散语言模型（DLM）最近作为一种替代自回归方法出现，提供了并行序列生成和灵活的Token顺序。然而，由于双向注意力的成本以及高质量输出所需的大量精炼步骤，其推理速度仍然慢于自回归模型。在这项工作中，我们强调并利用了DLM早期答案收敛的一个被忽视的特性：在许多情况下，正确的答案可以通过半步精炼在最终解码步骤之前在内部识别出来，这在半自回归和随机重遮蔽调度下都成立。例如，在GSM8K和MMLU上，分别有高达97%和99%的实例仅使用一半的精炼步骤就可以正确解码。基于这一观察，我们引入了Prophet，一种无需训练的快速解码范式，它实现了早期提交解码。具体来说，Prophet使用排名靠前的两个预测候选项之间的置信度差距作为标准，动态地决定是继续精炼还是“全力以赴”（即一次性解码所有剩余Token）。它无缝集成到现有的DLM实现中，开销微乎其微，并且不需要额外的训练。在多个任务上对LLaDA-8B和Dream-7B进行的实证评估表明，Prophet将解码步骤的数量减少了高达3.4倍，同时保持了高质量的生成。这些结果将DLM解码重塑为何时停止采样的问题，并表明早期解码收敛提供了一种简单而强大的加速DLM推理的机制，与现有的加速技术互补。我们的代码可在https://github.com/pixeli99/Prophet公开获取。

查看 arXiv 页面查看 PDF

Pengxiang Li

论文作者

论文提交者

在本文中，我们发现了一种扩散语言模型（DLM）的关键但被忽视的特性：早期答案收敛，即在最终解码步骤之前很久就能出现正确的答案。基于这一见解，我们提出了 Prophet，一种无需训练的快速解码范式，它动态监测置信度差距并触发早期提交解码。我们在 LLaDA-8B 和 Dream-7B 上的实验表明，Prophet 在准确率损失微乎其微的情况下实现了高达 3.4 倍的加速，为加速 DLM 推理提供了一个简单而强大的解决方案。

扩散语言模型在解码前就知道答案

摘要

评论