扩散分类器理解组合性,但有条件限制

发表
Arnas UselisArnas Uselis 提交
作者: JeongYujin Jeong, Arnas UselisArnas Uselis, Seong Joon OhSeong Joon Oh, Anna Rohrbach

摘要

理解视觉场景是人类智能的基础。尽管判别模型极大地推动了计算机视觉的发展,但它们在组合理解方面常常表现不佳。相比之下,最近的生成式文本到图像扩散模型擅长合成复杂场景,这表明它们具有内在的组合能力。在此基础上,人们提出了零样本扩散分类器,旨在将扩散模型重新用于判别任务。虽然先前的工作在判别式组合场景中取得了有希望的结果,但由于基准数量少以及对模型成功条件的分析相对浅显,这些结果仍然是初步的。为了解决这个问题,我们对扩散分类器在各种组合任务上的判别能力进行了全面的研究。具体来说,我们的研究涵盖了三种扩散模型(SD 1.5、2.0,以及首次纳入的 3-m),涉及 10 个数据集和 30 多个任务。此外,我们阐明了目标数据集领域在各自性能中所扮演的角色;为了隔离领域效应,我们引入了一个新的诊断基准 Self-Bench,该基准由扩散模型自身创建的图像组成。最后,我们探讨了时间步长加权的重要性,并揭示了领域差距与时间步长敏感性之间的关系,特别是对于 SD3-m 模型。总而言之,扩散分类器理解组合性,但并非在所有条件下都适用!代码和数据集可在 https://github.com/eugene6923/Diffusion-Classifiers-Compositionality 获取。
查看 arXiv 页面查看 PDF

评论

Arnas UselisArnas Uselis
论文作者
论文提交者
此评论已隐藏。
Arnas UselisArnas Uselis
论文作者
论文提交者

我们首次对用于组合视觉任务的扩散分类器进行了大规模研究,评估了三个 Stable Diffusion 模型在 10 个基准和 30 多项任务上的表现。我们发现:(1) 扩散模型通常不如 CLIP,尤其是在计数任务上,但在空间推理方面可以与 CLIP 持平或略优于它;(2) 它们仅在其自身的生成领域内具有良好的分类能力,这一点通过 SELF-BENCH(我们用于诊断自生成图像的基准)得到了验证;(3) 时间步重加权提供了一种恢复丢失性能的简单方法,有助于弥合领域差距。