VLM2Vec-V2:推进视频、图像和视觉文档的多模态嵌入

发表
Ziyan JiangZiyan Jiang 提交
作者: Rui Meng, Ziyan JiangZiyan Jiang, Ye Liu, MINGYI SUMingyi Su, Xinyi Yang, Yuepeng Fu, Can Qin, Zeyuan Chen, Ran Xu, Caiming Xiong, Yingbo Zhou, Wenhu Chen, Semih Yavuz

摘要

多模态嵌入模型在支持语义相似性、信息检索和跨不同模态的聚类等各种下游任务方面至关重要。然而,现有的大多数多模态嵌入模型,如VLM2Vec、E5-V、GME,主要专注于自然图像,对视频和视觉文档等其他视觉形式的支持有限。这限制了它们在现实世界场景中的适用性,包括AI代理、多模态搜索和推荐以及检索增强生成(RAG)。为了弥补这一空白,我们提出了VLM2Vec-V2,一个用于学习跨不同视觉形式嵌入的统一框架。首先,我们引入了MMEB-V2,这是一个综合性基准,在MMEB的基础上增加了五种新的任务类型:视觉文档检索、视频检索、时间定位、视频分类和视频问答——涵盖文本、图像、视频和视觉文档输入。接下来,我们训练了VLM2Vec-V2,一个支持文本、图像、视频和视觉文档输入的通用嵌入模型。大量实验表明,VLM2Vec-V2不仅在新增的视频和文档检索任务上表现出色,而且在原始图像基准上也优于之前的基线。通过广泛评估,我们的研究提供了关于各种多模态嵌入模型泛化能力的见解,并强调了统一嵌入学习的有效策略,为在研究和现实世界环境中实现更具可扩展性和适应性的表示学习奠定了基础。
查看 arXiv 页面查看 PDF

评论

Ziyan JiangZiyan Jiang
论文作者
论文提交者

我们推出了 MMEB-V2,这是一个综合性基准测试,它将 MMEB 扩展到视频和视觉文档领域的五种新任务类型。接下来,我们训练了 VLM2Vec-V2,这是一个支持文本、图像、视频和视觉文档输入的通用嵌入模型。

shubham pawarshubham pawar

这个模型的大小是多少?

Ziyan JiangZiyan Jiang
论文作者
论文提交者

当前发布的版本为2B尺寸。