MMEmb-R1:基于配对感知选择与自适应控制的推理增强型多模态嵌入

发表
wangyuchiwangyuchi 提交
作者: Yuchi Wang, Haiyang Yu, Weikang Bian, Jiefeng Long, Xiao Liang, Chao Feng, Hongsheng Li

摘要

AI 生成总结
一种自适应多模态嵌入框架,通过隐变量和强化学习有选择地应用推理,以提高基准任务的效率和性能。
多模态大语言模型(MLLM)已成功应用于多模态嵌入任务,但其生成式推理能力尚未得到充分利用。直接将思维链(CoT)推理引入嵌入学习会带来两个根本性挑战。首先,实例级推理与成对对比监督之间的结构不匹配可能导致“走捷径”行为,即模型仅学习推理的表面格式。其次,推理并非对所有嵌入任务都有益。对所有输入强行进行推理可能会引入不必要的计算和延迟,甚至在简单情况下掩盖显著的语义信号。为了解决这些问题,我们提出了 MMEmb-R1,一个基于自适应推理的多模态嵌入框架。我们将推理视为隐变量,并引入了“对感知推理选择”(pair-aware reasoning selection),该方法利用反向事实干预来识别有利于查询-目标对齐的推理路径。此外,我们采用强化学习,仅在必要时有选择地调用推理。在 MMEB-V2 基准上的实验表明,我们的模型仅凭 4B 参数就取得了 71.2 的得分,确立了新的最先进水平,同时显著降低了推理开销和推理延迟。
查看 arXiv 页面查看 PDF

评论

wangyuchiwangyuchi
论文提交者

多模态大语言模型(MLLM)已成功应用于多模态嵌入任务,但其生成式推理能力仍未得到充分利用。直接将思维链(CoT)推理纳入嵌入学习面临两个根本挑战。首先,实例级推理与成对对比监督之间的结构失配可能导致捷径行为,即模型仅学习推理的表面格式。其次,推理并非对所有嵌入任务都有益。对所有输入强制推理可能会引入不必要的计算和延迟,对于简单案例甚至会掩盖显著的语义信号。为了解决这些问题,我们提出了 MMEmb-R1,一个基于自适应推理的多模态嵌入框架。我们将推理表述为潜在变量,并引入了对对偶感知的推理选择(pair-aware reasoning selection),利用反事实干预来识别有利于查询-目标对齐的推理路径。此外,我们采用强化学习来仅在必要时有选择地调用推理。在 MMEB-V2 基准测试上的实验表明,我们的模型仅凭 4B 参数就获得了 71.2 分,在显著降低推理开销和推理延迟的同时,确立了新的最先进水平。