⏶24
OpenVision 2:用于多模态学习的生成式预训练视觉编码器系列
发表
由
Liuyanqing 提交
作者:
Yanqing Liu, Xianhang Li, Letian Zhang, Zirui Wang, Zeyu Zheng, Yuyin Zhou,
Cihang Xie
摘要
本文对OpenVision的架构和损失设计进行了简化,以提高其训练效率。遵循CapPa和AIMv2等之前的视觉语言预训练工作,以及LLaVA等现代多模态设计,我们的改动很简单:我们移除了文本编码器(因此也移除了对比损失),只保留了字幕损失作为纯粹的生成训练信号。我们将这个新版本命名为OpenVision 2。初步结果令人鼓舞:尽管进行了简化,OpenVision 2在广泛的多模态基准上与原始模型的性能具有竞争力,同时大幅减少了训练时间和内存消耗。例如,使用ViT-L/14,它将训练时间减少了约1.5倍(从83小时到57小时),内存使用量减少了约1.8倍(从24.5GB到13.8GB,相当于将最大批次大小从2k增加到8k)。这种优越的训练效率也使我们能够扩展到远超OpenVision中使用的最大视觉编码器,达到十亿参数以上。我们坚信,这种轻量级、纯生成范式对于多模态基础模型中未来的视觉编码器开发具有吸引力。
本文介绍了 OpenVision 2,一种简化的、仅生成式预训练配方,用于视觉编码器。
主要亮点:
移除了文本编码器和对比损失,仅使用字幕损失。
训练速度比原始 OpenVision 快约 1.5 倍,内存消耗低约 1.8 倍。
扩展到 10 亿以上参数,性能与之前的 CLIP 类基线相当或更优。
代码和模型:https://github.com/UCSC-VLAA/OpenVision
项目页面:https://ucsc-vlaa.github.io/OpenVision2
期待看到更多关于用于多模态基础模型的仅字幕生成式预训练的探索!