pi-Flow:基于策略的通过模仿蒸馏进行的几步生成

发表
Hansheng ChenHansheng Chen 提交
作者: Hansheng ChenHansheng Chen, Kai Zhang, Hao Tan, Leonidas Guibas, Gordon Wetzstein, Sai Bi

摘要

AI 生成总结
基于策略的流模型通过将教师模型蒸馏成具有动态流速度的学生模型,实现高效高质量的图像生成,提高了多样性和质量。
少步扩散或流模型通常会将预测速度的教师模型蒸馏到一个学生模型中,该学生模型预测通往去噪数据的捷径。这种格式不匹配导致了复杂的蒸馏过程,这些过程经常遭受质量-多样性权衡。为了解决这个问题,我们提出了基于策略的流模型(pi-Flow)。pi-Flow 修改了学生流模型的输出层,以在一步时间预测一个无网络的策略。然后,该策略以可忽略的开销在未来的子步骤中产生动态流速度,从而能够在这些子步骤上进行快速准确的 ODE 积分,而无需额外的网络评估。为了使策略的 ODE 轨迹与教师模型的轨迹匹配,我们引入了一种新颖的模仿蒸馏方法,该方法使用标准的 L2 流匹配损失在策略的轨迹上匹配策略的速度与教师模型的匹配。通过简单地模仿教师模型的行为,pi-Flow 实现了稳定且可扩展的训练,并避免了质量-多样性权衡。在 ImageNet 256^2 上,它达到了 2.85 的 1-NFE FID,优于相同 DiT 架构的 MeanFlow。在 FLUX.1-12B 和 Qwen-Image-20B 上,使用 4 NFEs 时,pi-Flow 实现了比最先进的少步方法高得多的多样性,同时保持了教师级别的质量。
查看 arXiv 页面查看 PDF

评论

Hansheng ChenHansheng Chen
论文作者
论文提交者

[arXiv] [代码] [pi-Qwen Demo🤗] [pi-FLUX Demo🤗]

隆重推出 pi-Flow,一种用于少步生成的新范式,它使用简单的模仿学习将预训练的流模型提炼成基于策略的流模型,在 4 步文本到图像生成中实现了最先进的多样性和与教师对齐的质量。

teaser

亮点
  • 新颖的框架:pi-Flow 代表基于策略的流模型。网络不输出去噪状态;相反,它输出一个快速策略,该策略可以展开多个 ODE 子步骤以达到去噪状态。

piflow_framework_comparison

  • 简单的提炼:pi-Flow 采用基于策略的模仿提炼 (pi-ID)。没有 JVPs,没有辅助网络,没有 GANs——只有一个策略和教师之间的 L2 损失。

piid

  • 多样性和教师对齐:pi-Flow 缓解了质量-多样性权衡,生成高度多样化的样本,同时保持高质量。它也与教师的风格高度一致。下面的例子表明,pi-Flow 样本通常与教师的输出一致,并且比 DMD 学生(例如 SenseFlow, Qwen-Image Lightning)的样本具有显著更高的多样性。

diversity_comparison

  • 可扩展性:pi-Flow 可从 ImageNet DiT 扩展到 200 亿参数的文本到图像模型(Qwen-Image)。