ComposeAnything:用于文本到图像生成的复合对象先验

发表
Matthieu FuteralMatthieu Futeral 提交
作者: Zeeshan KhanZeeshan Khan, Shizhe Chen, Cordelia Schmid

摘要

从包含复杂和新颖对象排列的文本生成图像,对于当前的文本到图像(T2I)模型来说仍然是一个重大挑战。尽管先前的基于布局的方法通过使用2D布局的空间约束来改善对象排列,但它们通常难以捕捉3D定位并牺牲质量和连贯性。在这项工作中,我们介绍了ComposeAnything,一个无需重新训练现有T2I模型即可改进组合图像生成的新颖框架。我们的方法首先利用大型语言模型(LLM)的思维链推理能力,从文本生成2.5D语义布局,该布局由富含深度信息和详细描述的2D对象边界框组成。基于此布局,我们生成一个空间和深度感知的粗略对象组合,捕捉预期的构图,作为一个强大且可解释的先验,取代基于扩散的T2I模型中的随机噪声初始化。这个先验通过对象先验强化和空间控制去噪来引导去噪过程,从而实现组合对象和连贯背景的无缝生成,同时允许对不准确的先验进行细化。ComposeAnything在T2I-CompBench和NSR-1K基准测试中,对于包含2D/3D空间排列、高对象数量和超现实构图的提示,均超越了现有最先进的方法。人类评估进一步表明,我们的模型生成了高质量的图像,其构图忠实地反映了文本内容。
查看 arXiv 页面查看 PDF
ComposeAnything:用于文本到图像生成的复合对象先验

评论

Matthieu FuteralMatthieu Futeral
论文提交者

从涉及复杂和新颖对象排列的文本生成图像,仍然是当前文本到图像(T2I)模型的重大挑战。尽管先前的基于布局的方法通过使用二维布局的空间约束改进了对象排列,但它们通常难以捕捉三维定位,并牺牲了质量和连贯性。在这项工作中,我们引入了 ComposeAnything,一个无需重新训练现有 T2I 模型即可改进组合图像生成的新颖框架。我们的方法首先利用大型语言模型(LLM)的思维链推理能力,从文本生成 2.5D 语义布局,该布局包含用深度信息和详细描述丰富的一维对象边界框。基于此布局,我们生成一个感知空间和深度的粗略对象合成,捕捉预期的构图,作为强大的可解释先验,取代基于扩散的 T2I 模型中的随机噪声初始化。该先验通过对象先验强化和空间控制去噪来引导去噪过程,实现组合对象和连贯背景的无缝生成,同时允许对不准确的先验进行细化。ComposeAnything 在 T2I-CompBench 和 NSR-1K 基准测试中,对于具有 2D/3D 空间排列、高对象数量和超现实构图的提示,优于最先进的方法。人类评估进一步表明,我们的模型生成了高质量的图像,其构图忠实地反映了文本。