⏶8
视觉语言模型在现实世界中安全吗?一项基于Meme的基准研究
发表
由
DongGeon Lee 提交
作者:
DongGeon Lee, Joonwon Jang,
Jihae Jeong, Hwanjo Yu
摘要
视觉-语言模型(VLM)的快速部署放大了安全风险,然而大多数评估依赖于人工图像。本研究提出问题:当前的 VLM 在面对普通用户分享的模因图像时,安全性如何?为了探究这个问题,我们引入了 MemeSafetyBench,一个包含 50,430 个实例的基准测试,将真实的模因图像与有害和无害的指令配对。我们使用全面的安全分类法和基于 LLM 的指令生成,评估了多个 VLM 在单轮和多轮交互中的表现。我们研究了真实世界的模因如何影响有害输出、会话上下文的缓解作用以及模型规模与安全指标之间的关系。我们的研究结果表明,VLM 对基于模因的有害提示比对合成或排版图像表现出更大的脆弱性。与纯文本输入相比,模因显著增加了有害响应并减少了拒绝。尽管多轮交互提供了部分缓解,但脆弱性依然存在。这些结果强调了进行生态有效性评估和增强安全机制的必要性。
TL;DR: 一个基于模因的视觉语言模型安全评估基准,模拟真实世界用户环境。