⏶15
UniFusion:视语模型作为图像生成的统一编码器
发表
由
taesiri 提交

作者:
Kevin Li,
Manuel Brack, Sudeep Katakol,
Hareesh Ravi, Ajinkya Kale


摘要
尽管视觉生成方面最近取得了显著进展,但大多数现有架构仍然依赖于独立的图像和文本编码器。这种分离限制了扩散模型进行跨模态推理和知识迁移的能力。先前试图弥合这一差距的尝试通常使用 VLM 的最后层信息、使用多个视觉编码器,或者联合训练大型统一模型以进行文本和图像生成,这需要大量的计算资源和大规模数据,限制了其可及性。我们提出了 UniFusion,一个基于扩散的生成模型,其条件是一个冻结的大型视觉语言模型(VLM),充当统一的多模态编码器。UniFusion 的核心是 Layerwise Attention Pooling (LAP) 机制,它从冻结 VLM 的文本和视觉标记中提取高级语义和低级细节,以条件化扩散生成模型。我们证明了 LAP 在文本-图像对齐的生成和从 VLM 到扩散模型的视觉信息忠实迁移方面优于其他浅层融合架构,这对于编辑至关重要。我们提出了 VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI),它仅将 diffusion transformer (DiT) 的条件设置为 VLM 在模型内提示重写期间生成的文本标记。VERIFI 将条件分布的对齐与 VLM 的推理能力相结合,以提高推理能力和灵活性。此外,在编辑任务上进行微调不仅可以提高文本-图像对齐的生成能力,表明跨模态知识迁移,而且还表现出巨大的泛化能力。我们的模型在进行单图像编辑训练后,能够零样本泛化到多个图像参考,进一步证明了 UniFusion 的统一编码器设计。
UniFusion 是第一个仅使用 VLM 作为输入条件编码器,而无需 VAE 或 CLIP 的辅助信号即可进行编辑的架构。统一编码器框架和我们提出的层级注意力池化(Layerwise Attention Pooling, LAP)模块实现了涌现能力,例如在单参考对上训练时能够进行零样本多参考生成,以及能力迁移,即在编辑任务上的训练能够定量和定性地改进文本到图像(T2I)的生成。