⏶4
模态策展:构建用于高级多模态信息检索的通用嵌入
发表
由
Kong 提交

作者:
Fanheng Kong, Jingyuan Zhang, Yahui Liu, Hongzhi Zhang, Shi Feng,
Xiaocui Yang, Daling Wang, Yu Tian, Victoria W.,
Fuzheng Zhang,
Guorui Zhou


摘要
多模态信息检索 (MIR) 面临着固有的挑战,这源于数据源的异构性以及跨模态对齐的复杂性。尽管先前的研究已经确定了特征空间中的模态差距,但解决这些挑战的系统方法仍有待探索。在这项工作中,我们引入了 UNITE,一个通用框架,它通过两个关键但尚未得到充分探索的方面来解决这些挑战:数据策展和模态感知训练配置。我们的工作首次全面分析了模态特定的数据属性如何影响不同场景下的下游任务性能。此外,我们提出了模态感知掩码对比学习 (MAMCL) 来缓解不同模态实例之间的竞争关系。我们的框架在多个多模态检索基准测试中取得了最先进的结果,显著优于现有方法。通过广泛的实验,我们证明了战略性的模态策展和量身定制的训练协议对于鲁棒的跨模态表示学习至关重要。这项工作不仅提升了 MIR 性能,还为未来多模态系统的研究提供了基础蓝图。我们的项目可在 https://friedrichor.github.io/projects/UNITE 获取。
通用多模态嵌入
⚡ 支持文本、图像、视频以及它们的融合。
⚡ 支持粗粒度检索、细粒度检索和基于指令的检索。
项目主页 👉 https://friedrichor.github.io/projects/UNITE/
代码 👉 https://github.com/friedrichor/UNITE