⏶7
InstanceGen:基于实例级指令的图像生成
发表
由
Etai Sella 提交
作者:
Etai Sella, Yanir Kleiman, Hadar Averbuch-Elor
摘要
尽管生成模型的能力取得了迅速发展,但预训练的文本到图像模型在处理包含多个对象和实例级属性的复杂提示时,仍难以准确捕捉其传达的语义。因此,整合额外的结构约束(通常以粗略边界框的形式)以更好地引导在此类挑战性场景下的生成过程,正日益受到关注。在本文中,我们基于“现代的图像生成模型可以直接提供一个合理的细粒度结构初始化”这一观察,将结构引导的思想更进一步。我们提出了一种方法,将这种基于图像的结构引导与基于LLM的实例级指令进行耦合,从而生成符合文本提示所有部分(包括对象数量、实例级属性以及实例间的空间关系)的输出图像。
我们引入了 InstanceGen,这是一种推理时技术,它提高了扩散模型为涉及多个物体、实例级属性和空间关系的复杂提示生成图像的能力。
摘要:
尽管生成模型的能力取得了快速进展,但预训练的文本到图像模型在捕捉由复合了多个物体和实例级属性的复杂提示所传达的语义时仍然存在困难。因此,我们看到人们对集成额外的结构约束(通常以粗略边界框的形式)来更好地指导此类具有挑战性情况下的生成过程的兴趣日益增长。在这项工作中,我们通过观察到当代图像生成模型可以直接提供合理的细粒度结构初始化,从而将结构指导的思想向前推进了一步。我们提出了一种技术,将这种基于图像的结构指导与基于LLM的实例级指令相结合,生成的输出图像遵循文本提示的所有部分,包括物体数量、实例级属性以及实例之间的空间关系。此外,我们贡献了 CompoundPrompts,这是一个由具有三个难度级别的复杂提示组成的基准,其中物体实例逐步复合了属性描述和空间关系。大量实验表明,我们的方法显著超越了先前模型的性能,特别是在复杂的多物体和多属性用例上。