⏶8
LAMIC:多模态扩散 Transformer 可扩展性驱动的布局感知多图像合成
发表
由
Jinsong Li 提交

作者:
Yuzhuo Chen, Zehua Ma, Jianhua Wang,
Kai Kang, Shunyu Yao, Weiming Zhang

摘要
在可控图像合成领域,根据多个参考图像并结合空间布局信息生成连贯一致的图像仍是一个开放的挑战。我们提出了LAMIC,一个布局感知多图像合成框架,首次以免训练的方式将单参考扩散模型扩展到多参考场景。LAMIC基于MMDiT模型,引入了两种即插即用的注意力机制:1)组隔离注意力(GIA),用于增强实体解耦;2)区域调制注意力(RMA),用于实现布局感知生成。为了全面评估模型能力,我们进一步引入了三个指标:1)包含比率(IN-R)和填充比率(FI-R),用于评估布局控制;2)背景相似性(BG-S),用于衡量背景一致性。大量实验表明,LAMIC在大多数主要指标上都达到了最先进的性能:在所有设置下,它在ID-S、BG-S、IN-R和AVG分数上始终优于现有的多参考基线,并在复杂合成任务中取得了最佳的DPG。这些结果表明,LAMIC在身份保持、背景保留、布局控制和提示遵循方面具有卓越的能力,所有这些都无需任何训练或微调,展示出强大的零样本泛化能力。通过继承先进的单参考模型的优势并实现向多图像场景的无缝扩展,LAMIC为可控多图像合成建立了一种新的免训练范式。随着基础模型的不断发展,LAMIC的性能预计也将随之提升。我们的实现代码可在以下地址获取:https://github.com/Suchenl/LAMIC。
谢谢 Peter ❤️