为安全多模态大型语言模型实现自动化引导

发表
Ningyu ZhangNingyu Zhang 提交
作者: Lyucheng Wu, Mengru Wang, Ziwen Xu, Tri Cao, Nay Oo, Bryan Hooi, Shumin Deng

摘要

多模态大语言模型 (MLLM) 的最新进展释放了强大的跨模态推理能力,但同时也引发了新的安全问题,尤其是在面对对抗性多模态输入时。为了在推理过程中提高 MLLM 的安全性,我们引入了一种名为 AutoSteer 的模块化、自适应的推理时干预技术,该技术无需对基础模型进行任何微调。AutoSteer 包含三个核心组件:(1) 一种新颖的安全意识分数 (Safety Awareness Score, SAS),可自动识别模型内部层之间与安全最相关的差异;(2) 一个自适应安全探针,经训练可从中间表示中估算有害输出的可能性;以及 (3) 一个轻量级拒绝头,在检测到安全风险时选择性地干预以调节生成内容。在 LLaVA-OV 和 Chameleon 模型上,跨多种安全关键型基准测试的实验表明,AutoSteer 能显著降低针对文本、视觉和跨模态威胁的攻击成功率 (ASR),同时保持模型的通用能力。这些发现使 AutoSteer 成为一个实用、可解释且有效的框架,有助于更安全地部署多模态人工智能系统。
查看 arXiv 页面查看 PDF

评论

Ningyu ZhangNingyu Zhang
论文提交者

本文介绍了一种模块化自适应的推理时干预技术 AutoSteer,无需对底层模型进行任何微调。