MoCa:模态感知持续预训练生成更优的双向多模态嵌入

发表
Haonan ChenHaonan Chen 提交
作者: Haonan ChenHaonan Chen, Hong LiuHong Liu, Yuping LuoYuping Luo, Liang Wang, Nan Yang, Furu Wei, Zhicheng Dou

摘要

基于因果视觉语言模型(VLM)构建的多模态嵌入模型,已在各项任务中展现出潜力。然而,现有方法面临三个关键局限:VLM 主干网络中因果注意力的使用对于嵌入任务而言并非最优;由于依赖高质量的标注配对数据进行对比学习而导致的扩展性问题;以及训练目标和数据多样性不足。为解决这些问题,我们提出了 MoCa,一个两阶段框架,旨在将预训练的 VLM 转换为有效的双向多模态嵌入模型。第一阶段,模态感知持续预训练,引入了一个联合重建目标,该目标同时对交错的文本和图像输入进行去噪,从而增强双向上下文感知推理。第二阶段,异构对比微调,利用超越简单图像-标题对的、多样化且语义丰富的多模态数据,以增强泛化能力和对齐效果。我们的方法通过在持续预训练中引入双向注意力,通过联合重建目标有效扩展到大规模无标注数据集,以及利用多样化的多模态数据增强表示鲁棒性,从而解决了上述局限。实验表明,MoCa 在 MMEB 和 ViDoRe-v2 基准测试中持续提升性能,取得了新的最先进成果,并在 MMEB 上展现出模型尺寸和训练数据方面的强大扩展性。
查看 arXiv 页面查看 PDF

评论

Haonan ChenHaonan Chen
论文作者
论文提交者

引言

资源