图像扩散模型中的局部性源于数据统计

发表
Artem LukoianovArtem Lukoianov 提交
作者: Artem Lukoianov, Chenyang Yuan, Justin Solomon, Vincent Sitzmann

摘要

AI 生成总结
研究表明,深度扩散模型中的局部性是图像数据集的统计特性,而非卷积神经网络的归纳偏置,这促使开发出更准确的分析去噪器。
在生成模型中,扩散模型因其训练目标的闭式最优解的存在(通常称为最优去噪器)而具有独特的吸引力。然而,使用这种最优去噪器的扩散模型仅仅会重现训练集中的图像,因此无法捕捉深度扩散模型的行为。最近的研究试图描述最优去噪器与深度扩散模型之间的差距,并提出了无需训练的分析模型,可以生成与经过训练的UNet模型生成的图像相似的图像。表现最好的方法假设卷积神经网络的移位等变性和局部性归纳偏置是导致性能差距的原因,因此将这些假设纳入其分析模型。在这项工作中,我们提供了证据,表明深度扩散模型中的局部性是图像数据集的统计属性,而不是由于卷积神经网络的归纳偏置。具体来说,我们证明了最优参数化线性去噪器与深度神经网络去噪器具有相似的局部性属性。我们进一步在理论和实验上都表明,这种局部性直接源于自然图像数据集中存在的像素相关性。最后,我们利用这些见解构建了一个分析去噪器,该去噪器比先前专家制作的替代品更能匹配深度扩散模型预测的分数。
查看 arXiv 页面查看 PDF
图像扩散模型中的局部性源于数据统计

评论

Artem LukoianovArtem Lukoianov
论文提交者

扩散模型可以从其训练目标的最小化器的角度进行分析。以往的研究发现,扩散模型的局部性(有限敏感性)在其泛化能力中起着至关重要的作用。但它们最初为什么是局部的呢?

在这项工作中,我们对扩散模型的敏感性场进行了仔细分析,并表明局部性(以及泛化能力)源于数据协方差。特别是,像素相关性模式决定了局部性形状:对于多样化的自然图像数据集,它是各向同性且紧凑的;而对于更专业的数据集,它也可以是非紧凑且高度各向异性的。基于这些见解,我们提出了一种完全无需训练的扩散分析模型。