Muddit:用统一离散扩散模型解放超越文本到图像的生成

发表
Jinbin BaiJinbin Bai 提交
作者: QingyuShiQingyu Shi, Jinbin BaiJinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan

摘要

统一生成模型旨在处理跨模态的多样化任务——如文本生成、图像生成和视觉-语言推理——都在单一架构和解码范式内实现。自回归统一模型由于顺序解码导致推理速度慢,而非自回归统一模型由于预训练骨干网络有限,泛化能力较弱。我们引入了Muddit,一个统一离散扩散Transformer,能够在文本和图像模态上实现快速并行生成。与之前从头开始训练的统一扩散模型不同,Muddit将预训练文本到图像骨干网络中的强大视觉先验与轻量级文本解码器整合在一起,在统一架构下实现了灵活高质量的多模态生成。实证结果表明,Muddit在质量和效率方面,相较于显著更大的自回归模型,实现了有竞争力或更优越的性能。这项工作突显了纯粹离散扩散在配备强大视觉先验后,作为统一生成的可扩展且有效骨干网络的潜力。
查看 arXiv 页面查看 PDF

评论

Jinbin BaiJinbin Bai
论文作者
论文提交者

🚀 扩散模型用于文本生成正在蓬勃发展——我们正在进一步推动它。虽然最近的工作探索了通过扩散实现统一生成以加快解码速度,但它们主要依赖于语言先验。我们引入了Muddit——Meissonic家族中下一代基础模型,它基于离散扩散构建,用于统一且高效的多模态生成。与传统的自回归方法不同,Muddit利用离散扩散(又名 MaskGIT 风格的掩码)作为其核心机制——从而实现跨模态的快速并行解码。虽然大多数统一模型仍然根植于语言先验,但Muddit是从视觉优先的角度开发的,以实现可扩展和灵活的生成,并且支持超快的 t2i、i2t 和 vqa 任务。代码和模型已发布在 https://github.com/M-E-AGI-Lab/Muddit。

Jinbin BaiJinbin Bai
论文作者
论文提交者

unified-10.png