对抗文本到视频检索的视频推广

发表
Qiwei TianQiwei Tian 提交
作者: Qiwei TianQiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Shuai Liu, Chao Shen

摘要

得益于跨模态模型的发展,文本到视频检索(T2VR)正在快速发展,但其鲁棒性仍未得到充分检验。现有针对 T2VR 的攻击旨在将视频推离查询,即抑制视频的排名,而将视频拉向选定查询的攻击,即提升视频的排名,仍未得到充分探索。这些攻击可能更具影响力,因为攻击者可能会获得更多观看次数/点击量以获取经济利益和广泛的(错误)信息。为此,我们率先提出了针对 T2VR 的首次攻击,以对抗性地提升视频,称为视频推广攻击(ViPro)。我们进一步提出了模态细化(MoRe),以捕捉视觉和文本模态之间更细粒度、复杂的交互,以增强黑盒可迁移性。全面的实验涵盖了 2 个现有基线、3 个领先的 T2VR 模型、3 个包含超过 1 万个视频的流行数据集,并在 3 种场景下进行评估。所有实验都在多目标设置中进行,以反映攻击者寻求同时推广多个查询相关视频的现实场景。我们还评估了我们的攻击的防御性和不可感知性。总体而言,ViPro 在白盒/灰盒/黑盒设置中平均分别超过其他基线 30%/10%/4%。我们的工作突出了一个被忽视的漏洞,对我们攻击的上限/下限进行了定性分析,并提供了对潜在反击的见解。代码将在 https://github.com/michaeltian108/ViPro 公开提供。
查看 arXiv 页面查看 PDF

评论

Qiwei TianQiwei Tian
论文作者
论文提交者

查看我们作为首次针对文本到视频检索 (T2VR) 的视频推广攻击工作,以针对多个查询提升视频排名!