⏶24

OpenVision 2：用于多模态学习的生成式预训练视觉编码器系列

09月01日发表

09月03日由 Liuyanqing 提交

作者: Yanqing Liu, Xianhang Li, Letian Zhang, Zirui Wang, Zeyu Zheng, Yuyin Zhou, Cihang Xie

摘要

本文对OpenVision的架构和损失设计进行了简化，以提高其训练效率。遵循CapPa和AIMv2等之前的视觉语言预训练工作，以及LLaVA等现代多模态设计，我们的改动很简单：我们移除了文本编码器（因此也移除了对比损失），只保留了字幕损失作为纯粹的生成训练信号。我们将这个新版本命名为OpenVision 2。初步结果令人鼓舞：尽管进行了简化，OpenVision 2在广泛的多模态基准上与原始模型的性能具有竞争力，同时大幅减少了训练时间和内存消耗。例如，使用ViT-L/14，它将训练时间减少了约1.5倍（从83小时到57小时），内存使用量减少了约1.8倍（从24.5GB到13.8GB，相当于将最大批次大小从2k增加到8k）。这种优越的训练效率也使我们能够扩展到远超OpenVision中使用的最大视觉编码器，达到十亿参数以上。我们坚信，这种轻量级、纯生成范式对于多模态基础模型中未来的视觉编码器开发具有吸引力。

查看 arXiv 页面查看 PDF

Liuyanqing

论文作者

论文提交者

本文介绍了 OpenVision 2，一种简化的、仅生成式预训练配方，用于视觉编码器。

主要亮点：