多模态LLMs中敏感信息的遗忘:基准测试与攻防评估

发表
Vaidehi PatilVaidehi Patil 提交
作者: Vaidehi PatilVaidehi Patil, Yi-Lin SungYi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit BansalMohit Bansal

摘要

在海量数据集上训练的 LLMs 可能会无意中获取敏感信息,例如个人详情和潜在有害内容。在多模态 LLMs (MLLMs) 中,由于它们整合了来自多种模态(图像和文本)的信息,这种风险进一步增加。攻击者可以利用多模态提示来提取敏感细节。评估 MLLMs 有效遗忘此类信息(目标遗忘)的能力,需要创建高质量、标注良好的图像-文本对。虽然以往关于遗忘的工作主要集中在文本上,但多模态遗忘的研究尚不充分。为了弥补这一差距,我们首先引入了一个多模态遗忘基准 UnLOK-VQA (Unlearning Outside Knowledge VQA),以及一个攻防框架,用于评估从 MLLMs 中删除特定多模态知识的方法。我们使用自动化流程扩展了一个视觉问答数据集,该流程生成不同“接近度”的样本以测试泛化性和特异性,然后进行手动过滤以保持高质量。随后,我们评估了针对七种攻击(四种白盒攻击,三种黑盒攻击)的六种防御目标,包括一种利用隐藏状态可解释性的新型白盒方法。我们的结果表明,多模态攻击的表现优于仅涉及文本或图像的攻击,而且最有效的防御是删除模型内部状态中的答案信息。此外,更大的模型表现出更好的编辑后鲁棒性,这表明规模能够增强安全性。UnLOK-VQA 为推进 MLLMs 中的遗忘研究提供了一个严谨的基准。
查看 arXiv 页面查看 PDF

评论

Vaidehi PatilVaidehi Patil
论文作者
论文提交者

用于多模态遗忘的新数据集