MMaDA: 多模态大型扩散语言模型

发表
Ling YangLing Yang 提交
作者: Ling YangLing Yang, tyfeldYe Tian, Bowen Li, Xinchen ZhangXinchen Zhang, shenkeKe Shen, Yunhai Tong, Mengdi Wang

摘要

我们引入了 MMaDA,一类新颖的多模态扩散基础模型,旨在文本推理、多模态理解和文本到图像生成等多样化领域实现卓越性能。该方法具有三个关键创新之处:(i) MMaDA 采用统一的扩散架构,具有共享的概率公式和模态无关设计,无需模态特定的组件。这种架构确保了不同数据类型的无缝集成和处理。(ii) 我们实施了混合长链思维 (CoT) 微调策略,该策略在跨模态范围内整合了统一的 CoT 格式。通过对齐文本和视觉领域的推理过程,该策略促进了最终强化学习 (RL) 阶段的冷启动训练,从而增强了模型从一开始处理复杂任务的能力。(iii) 我们提出了 UniGRPO,一种专门为扩散基础模型量身定制的统一策略梯度 RL 算法。利用多样化的奖励建模,UniGRPO 统一了推理和生成任务的后期训练,确保一致的性能提升。实验结果表明,MMaDA-8B 作为统一的多模态基础模型展现出强大的泛化能力。它在文本推理方面超越了 LLaMA-3-7B 和 Qwen2-7B 等强大模型,在多模态理解方面优于 Show-o 和 SEED-X,并在文本到图像生成方面超越了 SDXL 和 Janus。这些成就突显了 MMaDA 在统一扩散架构中弥合预训练和后期训练之间差距的有效性,为未来的研究和开发提供了一个全面的框架。我们在 https://github.com/Gen-Verse/MMaDA 开源了我们的代码和训练好的模型。
查看 arXiv 页面查看 PDF

评论

Ling YangLing Yang
论文作者
论文提交者

项目页面:http://knightnemo.github.io/vid2world/

Paineti MohanPaineti Mohan
此评论已隐藏。