打破模态壁垒:基于多模态大型语言模型的通用嵌入学习

发表
YangYang 提交
作者: TianchengGuTiancheng Gu, YangKaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda ChenYingda Chen, Weidong Cai, Jiankang Deng

摘要

对比语言-图像预训练 (CLIP) 框架已成为多模态表示学习,尤其是在图像-文本检索和聚类中广泛使用的方法。然而,其有效性受到三个关键限制的约束:(1) 文本标记截断,(2) 孤立的图像-文本编码,以及 (3) 由于词袋行为导致的组合性不足。尽管最近的多模态大型语言模型 (MLLMs) 在广义视觉-语言理解方面展现出重大进展,但其学习可迁移多模态表示的潜力仍未得到充分探索。在本文中,我们提出了 UniME (Universal Multimodal Embedding),一种新颖的两阶段框架,利用 MLLMs 学习用于各种下游任务的判别性表示。在第一阶段,我们从强大的基于 LLM 的教师模型中进行文本判别知识蒸馏,以增强 MLLM 语言组件的嵌入能力。在第二阶段,我们引入硬负例增强指令调优,以进一步推进判别性表示学习。具体来说,我们首先减轻了假负例污染,然后在每个批次中为每个实例采样多个硬负例,迫使模型关注具有挑战性的样本。这种方法不仅提高了判别能力,还增强了下游任务中的指令遵循能力。我们在 MMEB 基准和多个检索任务上进行了广泛实验,包括短文本和长文本描述检索以及组合检索。结果表明,UniME 在所有任务上都取得了持续的性能提升,展现出卓越的判别和组合能力。
查看 arXiv 页面查看 PDF

评论

YangYang
论文作者
论文提交者

对比语言-图像预训练(CLIP)框架已成为多模态表示学习的广泛使用方法,特别是在图像-文本检索和聚类方面。然而,其有效性受到三个关键限制的制约:(1)文本标记截断,(2)孤立的图像-文本编码,以及(3)由于词袋行为导致的组合性不足。尽管最近的多模态大型语言模型(MLLMs)在泛化视觉-语言理解方面展现出显著进展,但其学习可迁移多模态表示的潜力仍未得到充分探索。在这项工作中,我们提出了 UniME(通用多模态嵌入),一个新颖的两阶段框架,它利用 MLLMs 学习用于不同下游任务的判别性表示。在第一阶段,我们从强大的基于 LLM 的教师模型进行文本判别性知识蒸馏,以增强 MLLM 语言组件的嵌入能力。在第二阶段,我们引入了硬负例增强指令微调,以进一步推进判别性表示学习。具体来说,我们首先减轻假负例污染,然后在每个批次中为每个实例采样多个硬负例,迫使模型关注具有挑战性的样本。这种方法不仅提高了判别能力,还增强了下游任务中的指令遵循能力。我们在 MMEB 基准和多个检索任务上进行了广泛的实验,包括短文本和长文本描述检索以及组合性检索。结果表明,UniME 在所有任务中均实现了持续的性能提升,展现出卓越的判别性和组合能力。

liqiang niuliqiang niu

您好,很棒的工作!

我有一个问题是,你们论文中的方法与现有的 LLaVE 模型(目前在 MMEB 排行榜上排名第一)相比如何?

谢谢。

LLaVE: https://huggingface.co/papers/2503.04812

MMEB: https://huggingface.co/spaces/TIGER-Lab/MMEB

屏幕截图_27-4-2025_172719_huggingface.co.jpeg

YangYang
论文作者
论文提交者

感谢您的关注。在第二阶段中,UniME 参考了官方的 VLM2Vec 代码。目前,我们仍在调试用于训练 UniME-LLaVA-OneVision 的第二阶段代码。一旦训练完成,我们将开源该模型!