BLIP3-o:完全开源统一多模态模型家族——架构、训练与数据集

发表
JiuhaiChenJiuhaiChen 提交
作者: JiuhaiChenJiuhai Chen, Zhiyang XuZhiyang Xu, Xichen PanXichen Pan, Yushi HuYushi Hu, Can Qin, Tom GoldsteinTom Goldstein, Lifu Huang, Tianyi ZhouTianyi Zhou, Saining XieSaining Xie, Silvio SavareseSilvio Savarese, Le XueLe Xue, Caiming XiongCaiming Xiong, Ran XuRan Xu

摘要

多模态模型领域的近期研究中,统一图像理解和生成日益受到关注。尽管图像理解的设计选择已被广泛研究,但对于包含图像生成的统一框架而言,最优的模型架构和训练方法仍有待充分探索。受自回归模型和扩散模型在高质量生成和可扩展性方面的强大潜力启发,我们对它们在统一多模态环境中的应用进行了全面研究,重点关注图像表示、建模目标和训练策略。基于这些研究,我们提出了一种新颖的方法,该方法使用扩散Transformer生成语义丰富的CLIP图像特征,与传统的基于VAE的表示形成对比。这种设计带来了更高的训练效率和改进的生成质量。此外,我们证明了统一模型的顺序预训练策略——先在图像理解上进行训练,随后在图像生成上进行训练——通过保留图像理解能力同时发展强大的图像生成能力,提供了实际优势。最后,我们通过向GPT-4o提供涵盖各种场景、物体、人物姿势等多样化描述,精心整理了一个高质量的图像生成指令微调数据集BLIP3o-60k。基于我们创新的模型设计、训练方法和数据集,我们开发了BLIP3-o,这是一套最先进的统一多模态模型。BLIP3-o在涵盖图像理解和生成任务的大多数流行基准测试中取得了卓越的性能。为了促进未来的研究,我们完全开源了我们的模型,包括代码、模型权重、训练脚本以及预训练和指令微调数据集。
查看 arXiv 页面查看 PDF

评论

JiuhaiChenJiuhaiChen
论文作者
论文提交者

BLIP3-o:一系列完全开放的统一多模态模型——架构、训练与数据集 Github:https://github.com/JiuhaiChen/BLIP3o

YJYJ

随时随地学习的音频概述:https://youtu.be/z5dMx-Azpxs