统一多模态理解与生成模型:进展、挑战与机遇

发表
Shiyin LuShiyin Lu 提交
作者: Xinjie Zhang, Jintao Guo, zssShanshan Zhao, Minghao Fu, Lunhao Duan, Guo-Hua WangGuo-Hua Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

摘要

近年来,多模态理解模型和图像生成模型都取得了显著进展。尽管各自领域都取得了成功,但这两个领域独立发展,形成了截然不同的架构范式:自回归架构在多模态理解领域占据主导地位,而扩散模型则成为图像生成的基石。最近,人们对开发整合这些任务的统一框架越来越感兴趣。GPT-4o新功能的出现印证了这一趋势,凸显了统一的可能性。然而,这两个领域之间的架构差异带来了重大挑战。为了清晰概述当前在统一方面的努力,我们 प्रस्तुत了一份全面的综述,旨在指导未来的研究。首先,我们介绍了多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,我们回顾了现有的统一模型,将其分为三种主要架构范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每个类别,我们分析了相关工作引入的结构设计和创新。此外,我们汇编了针对统一模型量身定制的数据集和基准,为未来的探索提供了资源。最后,我们讨论了这个新兴领域面临的关键挑战,包括分词策略、跨模态注意力和数据。由于该领域仍处于早期阶段,我们预计将取得快速进展,并将定期更新本综述。我们的目标是激发进一步的研究,并为社区提供有价值的参考。本综述的相关参考文献可在 GitHub 上获取 (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models)
查看 arXiv 页面查看 PDF
统一多模态理解与生成模型:进展、挑战与机遇

评论

Shiyin LuShiyin Lu
论文提交者

近年来,多模态理解模型和图像生成模型都取得了显著进展。尽管各自取得了成功,这两个领域却独立发展,形成了不同的架构范式:自回归架构主导了多模态理解,而扩散模型则成为图像生成的基石。近来,人们越来越关注开发能够整合这些任务的统一框架。GPT-4o新能力的出现印证了这一趋势,凸显了统一的可能性。然而,这两个领域之间的架构差异带来了重大挑战。为了清晰地概述当前统一化努力的现状,我们进行了一项旨在指导未来研究的全面综述。首先,我们介绍了多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,我们回顾了现有的统一模型,将其分为三种主要的架构范式:基于扩散的方法、基于自回归的方法以及融合自回归和扩散机制的混合方法。对于每一类,我们分析了相关工作引入的结构设计和创新。此外,我们整理了为统一模型量身定制的数据集和基准,为未来的探索提供资源。最后,我们讨论了这一新兴领域面临的关键挑战,包括分词策略、跨模态注意力以及数据。由于该领域仍处于早期阶段,我们预计会取得快速进展,并将定期更新本综述。我们的目标是激发进一步的研究,并为社区提供有价值的参考。与本综述相关的参考文献可在 GitHub 上获取 (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models)。

Yinglun LiYinglun Li

很棒的综述。非常感谢。

Kai RuanKai Ruan

很棒的工作

Yury PanikovYury Panikov

非常感谢,非常有启发