⏶2
VLMs 可以聚合分散的训练补丁
发表
由
Zhanhui Zhou 提交
作者:
Zhanhui Zhou, Lingjie Chen, Chao Yang, Chaochao Lu
摘要
缓解视觉语言模型(VLM)风险的一种方法是移除其训练数据中的危险样本。然而,当有害图像被分割成看似无害的小片段,并分散在许多训练样本中时,这种数据审核很容易被规避。VLM随后可能在训练过程中学习将这些片段拼接在一起,并在推理时从完整图像或文本引用中生成有害响应。例如,如果VLM在来自血腥场景的图像片段与“安全”描述配对的数据上进行训练,那么VLM日后可能会将完整图像或对该场景的文本引用描述为“安全”。我们将VLM实现这种攻击的核心能力定义为视觉拼接(visual stitching)——即整合分散在多个共享相同文本描述的训练样本中的视觉信息的能力。在我们的工作中,我们首先在三个数据集中展示了常见开源VLM的视觉拼接能力,其中每张图像都标有唯一的合成ID:我们将每个(图像,ID)对拆分为不同粒度的{(片段,ID)}对进行微调,并发现微调后的模型可以从完整图像或文本引用中正确地表达出ID。在此基础上,我们通过使用来自危险图像的片段并将ID替换为“安全”或“不安全”等文本描述,模拟了上述对抗性数据投毒场景,从而证明了有害内容如何在片段中逃避审核,随后通过视觉拼接进行重建,从而带来严重的VLM安全风险。代码可在https://github.com/ZHZisZZ/visual-stitching获取。
占位符