时间即特征:利用扩散语言模型中的时间动态

发表
Wen WangWen Wang 提交
作者: Wen WangWen Wang, Bozhen Fang, Chenchen Jing, Yongliang ShenYongliang Shen, Yangyi Shen, Qiuyu WangQiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen

摘要

扩散大语言模型(dLLM)通过迭代去噪生成文本,但当前的解码策略却舍弃了丰富的中间预测,而只保留最终输出。我们在这里的工作揭示了一个关键现象,即时间振荡,其中正确答案常常出现在中间过程,但在后续去噪步骤中被覆盖。为了解决这个问题,我们引入了两种利用时间一致性的互补方法:1)时间自洽投票,一种无训练、测试时间解码策略,它聚合去噪步骤中的预测以选择最一致的输出;以及 2)一种后训练方法,称为时间一致性强化,它使用时间语义熵(TSE),一种衡量中间预测语义稳定性的指标,作为奖励信号来鼓励稳定的生成。跨多个基准的经验结果证明了我们方法的有效性。仅使用负 TSE 奖励,我们在 Countdown 数据集上观察到比现有 dLLM 惊人的平均 24.7% 的改进。结合准确度奖励,我们分别在 GSM8K 上获得了 2.0% 的绝对增益,在 MATH500 上获得了 4.3% 的绝对增益,在 SVAMP 上获得了 6.6% 的绝对增益,在 Countdown 上获得了 25.3% 的绝对增益。我们的发现强调了 dLLM 中未被开发的动态潜力,并提供了两个简单而有效的工具来利用它们。
查看 arXiv 页面查看 PDF
时间即特征:利用扩散语言模型中的时间动态

评论

Wen WangWen Wang
论文作者
论文提交者

这项工作揭示了扩散大语言模型(dLLM)中的时间振荡现象,即正确答案会在过程中期出现但随后丢失。为了利用这一点,作者提出了时间自洽性投票和时间一致性强化,从而在多个基准测试中提升了性能。