模态策展:构建用于高级多模态信息检索的通用嵌入

发表
KongKong 提交
作者: KongFanheng Kong, Jingyuan Zhang, Yahui Liu, Hongzhi Zhang, Shi Feng, Yang XiaocuiXiaocui Yang, Daling Wang, Yu Tian, Victoria W., Fuzheng ZhangFuzheng Zhang, Guorui ZhouGuorui Zhou

摘要

多模态信息检索 (MIR) 面临着固有的挑战,这源于数据源的异构性以及跨模态对齐的复杂性。尽管先前的研究已经确定了特征空间中的模态差距,但解决这些挑战的系统方法仍有待探索。在这项工作中,我们引入了 UNITE,一个通用框架,它通过两个关键但尚未得到充分探索的方面来解决这些挑战:数据策展和模态感知训练配置。我们的工作首次全面分析了模态特定的数据属性如何影响不同场景下的下游任务性能。此外,我们提出了模态感知掩码对比学习 (MAMCL) 来缓解不同模态实例之间的竞争关系。我们的框架在多个多模态检索基准测试中取得了最先进的结果,显著优于现有方法。通过广泛的实验,我们证明了战略性的模态策展和量身定制的训练协议对于鲁棒的跨模态表示学习至关重要。这项工作不仅提升了 MIR 性能,还为未来多模态系统的研究提供了基础蓝图。我们的项目可在 https://friedrichor.github.io/projects/UNITE 获取。
查看 arXiv 页面查看 PDF

评论

KongKong
论文作者
论文提交者

通用多模态嵌入

⚡ 支持文本图像视频以及它们的融合

⚡ 支持粗粒度检索细粒度检索基于指令的检索

项目主页 👉 https://friedrichor.github.io/projects/UNITE/

代码 👉 https://github.com/friedrichor/UNITE