OpenVision: 完全开放、经济高效的用于多模态学习的先进视觉编码器系列

发表
Haoqin TuHaoqin Tu 提交
作者: Xianhang Li, Yanqing Liu, Haoqin Tu, Hongru Zhu, Cihang Xie

摘要

OpenAI 于 2021 年初发布的 CLIP 长期以来一直是构建多模态基础模型的首选视觉编码器。尽管近期出现的 SigLIP 等替代方案已开始挑战这一现状,但据我们所知,它们都不是完全开放的:它们的训练数据仍是专有的,且/或其训练方案未公开。本文推出了 OpenVision,这是一个完全开放、高性价比的视觉编码器系列,填补了这一空白。当集成到 LLaVA 等多模态框架中时,OpenVision 的性能可媲美或超越 OpenAI CLIP。OpenVision 构建于现有工作之上(例如,使用 CLIPS 作为训练框架,使用 Recap-DataComp-1B 作为训练数据),同时揭示了提高编码器质量的多个关键见解,并展示了在推动多模态模型发展方面的实际益处。通过发布参数规模从 5.9M 到 632.1M 不等的视觉编码器,OpenVision 为开发者提供了在构建多模态模型时,在能力和效率之间进行灵活权衡的选择:更大的模型提供了增强的多模态性能,而更小的版本则支持轻量级、边缘设备就绪的多模态部署。
查看 arXiv 页面查看 PDF

评论

Haoqin TuHaoqin Tu
论文提交者

项目页面:https://ucsc-vlaa.github.io/OpenVision/