⏶12
DiCo:重振卷积网络,实现可扩展和高效的扩散建模
发表
由
Xuefeng Hu 提交
作者: Yuang Ai, Qihang Fan,
Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang
摘要
扩散 Transformer (DiT) 是一种很有前途的视觉生成扩散模型,它展现了令人印象深刻的性能,但计算开销巨大。有趣的是,对预训练 DiT 模型的分析表明,全局自注意力通常是冗余的,主要捕获局部模式——这突显了采用更高效替代方案的潜力。在本文中,我们重新审视卷积,将其作为构建高效且富有表达力的扩散模型的替代构建模块。然而,天真地用卷积替换自注意力通常会导致性能下降。我们的研究将这种性能差距归因于 ConvNet 相比于 Transformer 具有更高的通道冗余。为了解决这个问题,我们引入了一种紧凑的通道注意力机制,该机制促进激活更多样化的通道,从而增强特征多样性。这催生了扩散 ConvNet (DiCo),这是一个完全由标准 ConvNet 模块构建的扩散模型系列,它提供了强大的生成性能和显著的效率提升。在类别条件 ImageNet 基准测试中,DiCo 在图像质量和生成速度方面均优于先前的扩散模型。值得注意的是,DiCo-XL 在 256x256 分辨率下实现了 2.05 的 FID,在 512x512 分辨率下实现了 2.53 的 FID,分别比 DiT-XL/2 加速了 2.7 倍和 3.1 倍。此外,我们最大的模型 DiCo-H(参数量扩展到 10 亿)在 ImageNet 256x256 上达到了 1.90 的 FID——且训练过程中没有任何额外的监督。代码:https://github.com/shallowdream204/DiCo。



Diffusion Transformer (DiT) 是一种有前景的视觉生成扩散模型,展现了令人印象深刻的性能,但计算开销巨大。有趣的是,对预训练 DiT 模型的分析表明,全局自注意力往往是冗余的,主要捕获局部模式——这突显了更高效替代方案的潜力。在本文中,我们重新审视了卷积,将其作为构建高效且富有表现力的扩散模型的一种替代构建块。然而,天真地用卷积替换自注意力通常会导致性能下降。我们的研究将这种性能差距归因于 ConvNets 相较于 Transformers 具有更高的通道冗余。为了解决这个问题,我们引入了一种紧凑的通道注意力机制,可以促进更多样化通道的激活,从而增强特征多样性。这催生了 Diffusion ConvNet (DiCo),这是一个完全由标准 ConvNet 模块构建的扩散模型家族,提供了强大的生成性能和显著的效率提升。在类别条件 ImageNet 基准测试中,DiCo 在图像质量和生成速度上均优于先前的扩散模型。值得注意的是,DiCo-XL 在 256x256 分辨率下达到了 2.05 的 FID,在 512x512 分辨率下达到了 2.53 的 FID,分别比 DiT-XL/2 加速了 2.7 倍和 3.1 倍。此外,我们最大的模型 DiCo-H,参数量达到 10 亿,在 ImageNet 256x256 上达到了 1.90 的 FID——在训练过程中无需任何额外监督。