⏶7
IAG:针对视觉定位的 VLMs 的输入感知后门攻击
发表
由
Junxian Li 提交
作者:
Junxian Li, Beining Xu,
Di Zhang

摘要
视觉语言模型 (VLM) 在视觉基础等任务中取得了显著进展,它们根据自然语言查询和图像定位图像中的特定对象。然而,VLM 视觉基础任务中的安全问题仍未得到充分探索,尤其是在后门攻击方面。在本文中,我们引入了一种新颖的输入感知后门攻击方法 IAG,旨在操纵 VLM 的基础行为。这种攻击迫使模型无论用户查询如何,都将输入图像中的特定目标对象作为基础。我们提出了一种自适应触发生成器,它使用文本条件 U-Net 将攻击目标的描述的语义信息嵌入到原始图像中,从而克服了开放词汇攻击的挑战。为了确保攻击的隐蔽性,我们利用重建损失来最小化中毒图像和干净图像之间的视觉差异。此外,我们引入了一种统一的攻击数据生成方法。IAG 经过理论和经验评估,证明了其可行性和有效性。值得注意的是,我们在 InternVL-2.5-8B 上的 ASR@0.5 在各种测试集上达到了 65% 以上。IAG 在操纵 Ferret-7B 和 LlaVA-1.5-7B 方面也显示出有前景的潜力,而对干净样本的准确性下降很小。广泛的特定实验,如消融研究和潜在防御,也表明了我们攻击的鲁棒性和可迁移性。
IAG 引入了一种新颖的针对视觉-语言模型的输入感知后门攻击方法,证明了其在以最小视觉干扰操纵视觉接地任务方面的有效性,突出了 VLM 中的安全漏洞。