DiscoVLA: 降低视觉、语言和对齐中的差异,实现参数高效的视频-文本检索

发表
LeqiShenLeqiShen 提交
作者: LeqiShenLeqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding

摘要

将图像-文本预训练模型CLIP进行参数高效适配以用于视频-文本检索是一个重要的研究领域。尽管CLIP专注于图像级的视觉-语言匹配,但视频-文本检索要求在视频级别进行全面理解。从图像级到视频级的迁移过程中出现了三个关键的差异:视觉、语言和对齐。然而,现有方法主要关注视觉,却忽视了语言和对齐。在本文中,我们提出了视觉、语言和对齐差异减少(DiscoVLA)方法,它同时缓解了这三个差异。具体而言,我们引入了图像-视频特征融合,以整合图像级和视频级特征,有效地解决了视觉和语言差异。此外,我们生成伪图像字幕以学习细粒度的图像级对齐。为了缓解对齐差异,我们提出了图像到视频对齐蒸馏,它利用图像级对齐知识来增强视频级对齐。大量实验证明了我们DiscoVLA的优越性。特别地,在MSRVTT数据集上使用CLIP (ViT-B/16)时,DiscoVLA在R@1指标上超越了现有方法1.5%,最终达到了50.5%的R@1分数。代码可在 https://github.com/LunarShen/DsicoVLA 获取。
查看 arXiv 页面查看 PDF

评论

LeqiShenLeqiShen
论文作者
论文提交者

我们的 DiscoVLA 已被 CVPR 2025 接收。我们专注于参数高效的视频-文本检索,并提出一种统一的方法来缓解三个关键差异:视觉、语言和对齐。

代码可在以下地址获取:https://github.com/LunarShen/DsicoVLA