MLLM微调中无需外部引导的后门清理

发表
Xuankun RongXuankun Rong 提交
作者: Xuankun Rong, Wenke Huang, Jian Liang, Jinhe Bi, Xun Xiao, Yiming Li, Bo Du, Mang Ye

摘要

多模态大型语言模型(MLLMs)越来越多地部署在微调即服务(FTaaS)设置中,在这种设置下,用户提交的数据集用于将通用模型适配到下游任务。然而,这种灵活性引入了严重的安全风险,恶意微调可以以最小的代价将后门植入 MLLMs。在本文中,我们观察到,后门触发器系统性地扰乱跨模态处理,导致注意力异常集中在非语义区域——我们称之为“注意力崩溃”(attention collapse)的现象。基于这一洞察,我们提出 Believe Your Eyes (BYE),一个数据过滤框架,它利用注意力熵模式作为自监督信号来识别和过滤后门样本。BYE 通过三阶段流程运行:(1) 使用微调模型提取注意力图,(2) 通过双峰分离计算熵分数并分析敏感层,以及 (3) 执行无监督聚类以移除可疑样本。与先前的防御不同,BYE 不需要干净的监督数据、辅助标签或模型修改。在各种数据集、模型和不同触发类型上的大量实验验证了 BYE 的有效性:它实现了接近零的攻击成功率,同时保持干净任务的性能,提供了一个鲁棒且通用的解决方案来对抗 MLLMs 中的后门威胁。
查看 arXiv 页面查看 PDF

评论

Xuankun RongXuankun Rong
论文提交者

多模态大型语言模型(MLLMs)正越来越多地部署在微调即服务(FTaaS)环境中,用户提交的数据集可以将通用模型适配到下游任务。然而,这种灵活性带来了严重的安全风险,恶意微调可以轻松地将后门植入 MLLMs。在本文中,我们观察到,后门触发器系统性地破坏了跨模态处理,导致异常注意力集中在非语义区域——我们将这种现象称为注意力坍塌。基于这一发现,我们提出了 Believe Your Eyes (BYE),这是一个数据过滤框架,它利用注意力熵模式作为自监督信号来识别和过滤后门样本。BYE 通过三阶段流程运作:(1) 使用微调模型提取注意力图,(2) 计算熵分数并通过双模态分离分析敏感层,以及 (3) 执行无监督聚类以移除可疑样本。与先前的防御方法不同,BYE 不需要干净的监督、辅助标签或模型修改。在各种数据集、模型和不同触发器类型上的大量实验验证了 BYE 的有效性:它实现了接近零的攻击成功率,同时保持了纯净任务的性能,为 MLLMs 中的后门威胁提供了稳健且可泛化的解决方案。