伦勃朗的奶牛——分析文本到图像模型中艺术提示的解读

发表
Sergio PicasciaSergio Picascia 提交
作者: Alfio Ferrara, Sergio PicasciaSergio Picascia, Elisabetta Rocchetti

摘要

文本到图像扩散模型通过从数十亿张图像中学习,包括流行的艺术作品,展示了生成艺术内容的卓越能力。然而,这些模型如何内部表示概念,例如绘画中的内容和风格,仍然有待探索。传统的计算机视觉假设内容和风格是正交的,但扩散模型在训练期间没有收到关于这种区别的明确指导。在这项工作中,我们研究了基于 Transformer 的文本到图像扩散模型在生成艺术作品时如何编码内容和风格概念。我们利用交叉注意力热图将生成图像中的像素归因于特定的提示标记,使我们能够隔离受内容描述标记和风格描述标记影响的图像区域。我们的发现表明,扩散模型根据特定的艺术提示和所请求的风格,表现出不同程度的内容-风格分离。在许多情况下,内容标记主要影响与对象相关的区域,而风格标记影响背景和纹理区域,这表明它们对内容-风格区别有了新兴的理解。这些见解有助于我们理解大规模生成模型如何在没有明确监督的情况下内部表示复杂的艺术概念。我们分享了代码和数据集,以及一个用于可视化注意力图的探索工具,网址为 https://github.com/umilISLab/artistic-prompt-interpretation
查看 arXiv 页面查看 PDF

评论

Sergio PicasciaSergio Picascia
论文作者
论文提交者

本研究探讨了文本到图像扩散模型在生成艺术品时如何在内部表示内容和风格等艺术概念。我们使用交叉注意力分析,研究这些模型如何将提示中描述内容的元素和描述风格的元素分开。我们的发现表明,扩散模型在内容-风格分离方面表现出不同程度,内容标记通常影响对象区域,而风格标记影响背景和纹理。