⏶8
ContextGen: 身份一致的多实例生成的上下文布局锚定
发表
由
Ruihang Xu 提交
作者:
Ruihang Xu, Dewei Zhou, Fan Ma, Yi Yang
摘要
AI 生成总结
ContextGen 是一个 Diffusion Transformer 框架,通过集成布局锚定和身份一致性注意力,增强了多实例图像生成能力,从而实现了卓越的控制力和质量。多实例图像生成(MIG)对现代扩散模型来说仍然是一个重大的挑战,因为它在实现对物体布局的精确控制和保持多个不同主体的身份方面存在关键限制。为了解决这些限制,我们引入了ContextGen,一个新颖的、由布局和参考图像引导的多实例生成扩散Transformer框架。我们的方法整合了两个关键的技术贡献:一个上下文布局锚定(CLA)机制,它将复合布局图像整合到生成上下文中,以稳健地将物体锚定在其期望的位置;以及身份一致性注意力(ICA),一种利用上下文参考图像来确保多个实例身份一致性的创新注意力机制。认识到该任务缺乏大规模、层次化结构的数据集,我们引入了IMIG-100K,第一个具有详细布局和身份标注的数据集。广泛的实验表明,ContextGen设定了新的最先进水平,在控制精度、身份保真度和整体视觉质量方面超越了现有方法。
ContextGen 是一个新颖的框架,它使用用户提供的参考图像来生成具有多个实例的图像,在精确控制其位置的同时,还能保证完美的身份保留。 我们工作的代表性展示:
ContextGen 概览: