⏶10
LaTtE-Flow: 逐层时间步专家流式Transformer
发表
由
Zhiyang Xu 提交
作者: Ying Shen,
Zhiyang Xu, Jiuhai Chen, Shizhe Diao, Jiaxin Zhang, Yuguang Yao, Joy Rimchala, Ismini Lourentzou, Lifu Huang
摘要
多模态基础模型在统一图像理解与生成方面的最新进展,为在单一框架内处理广泛的视觉-语言任务开辟了激动人心的途径。尽管取得了进展,但现有的统一模型通常需要大量预训练,并且与针对每个任务的专用模型相比,难以达到相同的性能水平。此外,其中许多模型图像生成速度较慢,限制了它们在实时或资源受限环境中的实际部署。在这项工作中,我们提出了一种新颖高效的架构——层级时间步专家流式Transformer (LaTtE-Flow),它在单一多模态模型中统一了图像理解与生成。LaTtE-Flow 构建于强大的预训练视觉-语言模型 (VLM) 之上,以继承其强大的多模态理解能力,并通过新颖的层级时间步专家流式架构对其进行扩展,实现高效图像生成。LaTtE-Flow 将流匹配过程分配到专门的Transformer层组中,每个组负责不同的时间步子集。这种设计通过在每个采样时间步仅激活少量层来显著提高采样效率。为了进一步提升性能,我们提出了一种时间步条件残差注意力机制,以实现层间高效的信息复用。实验表明,LaTtE-Flow 在多模态理解任务上表现出色,同时实现了具有竞争力的图像生成质量,且与近期统一多模态模型相比,推理速度提高了约6倍。
本文将时间步专家架构引入到最近被Bagel、LMFusion和Transfusion等模型广泛采用的流匹配架构中。所提出的新架构在训练时实现了更快的推理速度和收敛速度,展现出强大的图像生成和理解能力。