⏶11
UniME-V2:MLLM 作为通用多模态嵌入学习的裁判
发表
由
Yang 提交

作者:
Tiancheng Gu,
Kaicheng Yang, Kaichen Zhang,
Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing


摘要
AI 生成总结
一种新颖的通用多模态嵌入 (UniME-V2) 模型使用 MLLM,通过识别多样化、高质量的负样本并提高判别能力,从而增强表示学习。通用多模态嵌入模型是各种任务的基础。现有的方法通常采用批内负例挖掘,通过测量查询-候选对之间的相似性。然而,这些方法往往难以捕捉候选者之间细微的语义差异,并且负样本缺乏多样性。此外,嵌入在区分假负例和困难负例方面表现出有限的辨别能力。在本文中,我们利用MLLM(多模态大型语言模型)先进的理解能力来增强表示学习,并提出了新颖的通用多模态嵌入(UniME-V2)模型。我们的方法首先通过全局检索构建一个潜在的困难负例集。然后,我们引入了MLLM-as-a-Judge机制,该机制利用MLLM评估查询-候选对的语义一致性并生成软语义匹配分数。这些分数构成了困难负例挖掘的基础,减轻了假负例的影响,并能够识别出多样化、高质量的困难负例。此外,语义匹配分数被用作软标签,以减轻僵化的“一对一”映射约束。通过将相似度矩阵与软语义匹配分数矩阵对齐,模型学习候选者之间的语义差异,显著增强了其辨别能力。为了进一步提高性能,我们提出了UniME-V2-Reranker,这是一个基于联合成对和列表式优化方法在我们挖掘的困难负例上训练的重排序模型。我们在MMEB基准和多个检索任务上进行了全面的实验,结果表明我们的方法在所有任务上的平均性能均达到最先进水平。
通用多模态嵌入模型是各种任务的基础。现有方法通常通过测量查询-候选对的相似性来采用批内负采样。然而,这些方法常常难以捕捉候选者之间细微的语义差异,并且负样本缺乏多样性。此外,嵌入在区分错误和困难负样本方面缺乏判别能力。在本文中,我们利用 MLLM 的高级理解能力来增强表示学习,并提出了新颖的通用多模态嵌入(UniME-V2)模型。我们的方法首先通过全局检索构建潜在的困难负样本集。然后,我们引入 MLLM-as-a-Judge 机制,该机制利用 MLLM 来评估查询-候选对的语义对齐度,并生成软语义匹配分数。这些分数构成了困难负样本挖掘的基础,减轻了假负样本的影响,并能够识别多样化、高质量的困难负样本。此外,语义匹配分数被用作软标签,以减轻僵硬的一对一映射约束。通过将相似度矩阵与软语义匹配分数矩阵对齐,模型学习到了候选者之间的语义差异,显著增强了其判别能力。为了进一步提高性能,我们提出了 UniME-V2-Reranker,这是一个通过联合成对和列表式优化方法在所挖掘的困难负样本上训练的重排序模型。我们在 MMEB 基准和多个检索任务上进行了广泛的实验,结果表明我们的方法在所有任务的平均性能上都达到了最先进水平。