使用多模态大型语言模型进行文本-视频检索的双向似然估计

发表
Dohwan KoDohwan Ko 提交
作者: Dohwan KoDohwan Ko, Ji Soo Lee, Minhyuk Choi, Zihang Meng, Hyunwoo J. Kim

摘要

文本-视频检索旨在从大规模在线数据库中,根据给定的视频(或文本)查询找到最相关的文本(或视频)候选。最近的工作利用多模态大型语言模型(MLLMs)来改进检索,特别是对于长或复杂的查询-候选对。然而,我们观察到,MLLMs 的简单应用,即基于候选似然的检索,引入了候选先验偏差,倾向于选择具有固有更高先验的候选而不是与查询更相关的候选。为此,我们提出了一种新颖的检索框架,即带有 MLLM 的双向似然估计(BLiM),它通过训练模型从给定视频生成文本以及从给定文本生成视频特征来利用查询和候选似然。此外,我们引入了候选先验归一化(CPN),一个简单但有效的免训练分数校准模块,旨在减轻候选似然中的候选先验偏差。在四个文本-视频检索基准上,我们配备 CPN 的 BLiM 平均比以前最先进的模型高出 6.4 R@1,有效地缓解了候选先验偏差并强调了查询-候选相关性。我们对检索之外的各种多模态任务的深入分析强调了 CPN 的广泛适用性,它通过减少对文本先验的依赖来增强视觉理解。代码可在 https://github.com/mlvlab/BLiM 获取。
查看 arXiv 页面查看 PDF

评论

Dohwan KoDohwan Ko
论文作者
论文提交者

一种新颖的检索框架,采用双向似然估计与多模态大型语言模型和候选先验归一化相结合,通过减少候选先验偏差和增强查询-候选相关性来改进文本-视频检索。