⏶2
DiSA: 自回归图像生成中的扩散步退火
发表
由
AK 提交

作者:
Qinyu Zhao, Jaskirat Singh, Ming Xu, Akshay Asthana, Stephen Gould, Liang Zheng
摘要
越来越多的自回归模型,如 MAR、FlowAR、xAR 和 Harmon,采用扩散采样来提高图像生成质量。然而,这种策略导致推理效率低下,因为扩散通常需要 50 到 100 步才能采样一个 token。本文探讨了如何有效解决此问题。我们的主要动机是,在自回归过程中生成更多 token 时,后续 token 遵循的分布受到的约束更多,也更容易采样。直观地解释,如果模型已经生成了狗的一部分,剩余的 token 必须完成这条狗,因此受到的约束更大。经验证据支持了我们的动机:在后续生成阶段,下一个 token 可以被多层感知器很好地预测,方差较低,并且遵循从噪声到 token 的更接近直线的去噪路径。基于我们的发现,我们引入了扩散步长退火 (DiSA),这是一种无需训练的方法,随着生成的 token 增多,它逐渐减少使用的扩散步长,例如,开始时使用 50 步,在后期阶段逐渐减少到 5 步。由于 DiSA 源于我们对自回归模型中扩散特性的发现,因此它与专为扩散本身设计的现有加速方法互补。DiSA 只需在现有模型上编写几行代码即可实现,尽管简单,但它使 MAR 和 Harmon 的推理速度提高了 5-10 倍,使 FlowAR 和 xAR 的推理速度提高了 1.4-2.5 倍,同时保持了生成质量。
评论

论文提交者