SenseFlow: 扩展分布匹配以实现基于流的文本到图像蒸馏

发表
Xingtong GeXingtong Ge 提交
作者: Xingtong GeXingtong Ge, Xin Zhang, Tongda Xu, Yi Zhang, Xinjie Zhang, Yan Wang, Jun Zhang

摘要

分布匹配蒸馏(DMD)已成功应用于文生图扩散模型,例如Stable Diffusion(SD)1.5。然而,原始DMD在诸如SD 3.5和FLUX等大规模基于流的文生图模型上存在收敛困难。在本文中,我们首先分析了将原始DMD应用于大规模模型时遇到的问题。然后,为了克服可扩展性挑战,我们提出了隐式分布对齐(IDA),以规范生成器和伪分布之间的距离。此外,我们提出了段内引导(ISG),用于重新定位教师模型的时间步重要性分布。仅使用IDA,DMD就能在SD 3.5上收敛;同时使用IDA和ISG,DMD则能在SD 3.5和FLUX.1 dev上收敛。除了其他改进,例如扩展的判别器模型之外,我们最终的模型,命名为SenseFlow,在基于扩散的文生图模型(如SDXL)和流匹配模型(如SD 3.5 Large和FLUX)的蒸馏方面均取得了卓越的性能。源代码将可在 https://github.com/XingtongGe/SenseFlow 获取。
查看 arXiv 页面查看 PDF

评论

Xingtong GeXingtong Ge
论文作者
论文提交者

分布匹配蒸馏(DMD)已成功应用于文本到图像扩散模型,例如Stable Diffusion (SD) 1.5。然而,传统的DMD在大型流基文本到图像模型(例如SD 3.5和FLUX)上存在收敛困难。在本文中,我们首先分析了在大型模型上应用传统DMD时遇到的问题。随后,为了克服可扩展性挑战,我们提出了隐式分布对齐(IDA)来规范生成器和伪分布之间的距离。此外,我们提出了段内指导(ISG)来重新定位教师模型的时间步重要性分布。仅使用IDA,DMD就能在SD 3.5上收敛;同时采用IDA和ISG,DMD能在SD 3.5和FLUX.1 dev上收敛。除了其他改进(例如放大判别器模型)之外,我们的最终模型,命名为SenseFlow,在扩散式文本到图像模型(如SDXL)和流匹配模型(如SD 3.5 Large和FLUX)的蒸馏方面均取得了卓越的性能。源代码将发布于https://github.com/XingtongGe/SenseFlow。