⏶8
通过特征最优对齐攻击闭源 MLLMs 的对抗性攻击
发表
由
jiaxiaojunQAQ 提交
作者:
Xiaojun Jia, Sensen Gao, Simeng Qin, Tianyu Pang, Chao Du, Yihao Huang, Xinfeng Li, Yiming Li, Bo Li, Yang Liu
摘要
多模态大型语言模型(MLLMs)仍然容易受到可迁移对抗性样本的攻击。虽然现有方法通常通过对齐对抗性样本和目标样本之间的全局特征(如 CLIP 的 [CLS] token)来实现定向攻击,但它们常常忽略了 patch token 中编码的丰富局部信息。这导致对齐不佳和可迁移性有限,特别是对于闭源模型。为了解决这一限制,我们提出了一种基于特征最优对齐的定向可迁移对抗性攻击方法,称为 FOA-Attack,以提高对抗性迁移能力。具体来说,在全局层面,我们引入了基于余弦相似度的全局特征损失,以对齐对抗性样本的粗粒度特征与目标样本的特征。在局部层面,鉴于 Transformer 中丰富的局部表示,我们利用聚类技术提取紧凑的局部模式,以减轻冗余的局部特征。然后,我们将对抗性样本和目标样本之间的局部特征对齐建模为一个最优传输(OT)问题,并提出一种局部聚类最优传输损失来细化细粒度特征对齐。此外,我们提出了一种动态集成模型加权策略,以自适应地平衡多个模型在生成对抗性样本过程中的影响,从而进一步提高可迁移性。在各种模型上进行的广泛实验证明了所提出方法的优越性,优于现有最先进方法,尤其是在迁移到闭源 MLLMs 方面。代码已发布在 https://github.com/jiaxiaojunQAQ/FOA-Attack。
在这项工作中,我们提出了 FOA-Attack,这是一种旨在提高多模态大语言模型 (MLLMs) 可迁移性的定向可迁移对抗攻击。当前方法仅依赖于全局特征对齐(例如 CLIP 的 [CLS] token),受此局限性启发,我们发现忽略局部补丁特征会导致次优的可迁移性,特别是对于闭源模型。
为了解决这个问题,我们提出了一种双层特征对齐策略:
全局层面:基于余弦相似度的全局特征损失,用于对齐粗粒度表示。
局部层面:局部聚类最优传输损失,通过利用局部 token 聚类和最优传输来优化细粒度对齐。
我们进一步提出了一种动态集成模型权重策略,以自适应地提高可迁移性。大量实验表明,FOA-Attack 显著优于最先进的方法,尤其是在闭源 MLLMs 上。
代码: https://github.com/jiaxiaojunQAQ/FOA-Attack