统一连续生成模型

发表
Zhenglin ChengZhenglin Cheng 提交
作者: Black BoxPeng Sun, Yi Jiang, Tao LINTao Lin

摘要

连续生成模型(包括扩散模型和流匹配等需要多步(通常需要 8-1000 个采样步骤)的方法,以及一致性模型等少步(通常需要 1-8 个步骤)的方法)的最新进展,已展现出令人印象深刻的生成性能。然而,现有工作通常将这些方法视为不同的范式,导致训练和采样方法论的分离。我们引入了一个统一的框架,用于训练、采样和分析这些模型。我们的实现,即统一连续生成模型训练器和采样器 (UCGM-{T,S}),实现了最先进 (SOTA) 的性能。例如,在 ImageNet 256x256 数据集上使用一个 675M 的扩散 Transformer,UCGM-T 训练了一个多步模型,在 20 个步骤内达到了 1.30 FID,并训练了一个少步模型,仅需 2 个步骤就达到了 1.42 FID。此外,将 UCGM-S 应用于一个预训练模型 (之前在 250 个步骤时为 1.26 FID),将性能提升到仅需 40 个步骤即可达到 1.06 FID。代码可在以下地址获取:https://github.com/LINs-lab/UCGM
查看 arXiv 页面查看 PDF

评论

Black BoxBlack Box
论文作者

我们引入了一个统一框架(UCGM),用于训练、采样和分析多步模型(如扩散模型和流匹配模型)以及少步方法(如一致性模型)。

值得注意的是,我们在 ImageNet 256x256 上取得了最先进的 (SOTA) 性能(40个采样步长时FID为1.06,2个采样步长时FID为1.42),在 ImageNet 512x512 上也取得了最先进的 (SOTA) 性能(150个采样步长时FID为1.24,2个采样步长时FID为1.75)!

代码:https://github.com/LINs-lab/UCGM

Zhenglin ChengZhenglin Cheng
论文提交者

我们引入了一个统一框架(UCGM),用于训练、采样和分析多步模型(如扩散模型和流匹配模型)以及少步方法(如一致性模型)。

值得注意的是,我们在 ImageNet 256x256 上取得了最先进的 (SOTA) 性能(40个采样步长时FID为1.06,2个采样步长时FID为1.42),在 ImageNet 512x512 上也取得了最先进的 (SOTA) 性能(150个采样步长时FID为1.24,2个采样步长时FID为1.75)!

代码:https://github.com/LINs-lab/UCGM

image.png