用于批内数据窃取和模型推理操纵的架构后门

发表
ii 提交
作者: Nicolas Küchler, Ivan Petrov, Conrad Grobler, iIlia Shumailov

摘要

近十年来,学术界一直在研究神经网络中的后门,主要集中在攻击者操纵模型预测的分类任务上。虽然这些改变预测的攻击已被证明是恶意的,但其直接的现实世界影响仍然不明确。在本文中,我们引入了一类基于近期架构后门进展的新颖且更具威胁性的后门。我们展示了如何特别设计这些后门来利用批量推理(batch inference)——一种常见的硬件利用技术——从而实现大规模用户数据操纵和窃取。通过针对批量处理过程,这些架构后门可以促使并发用户请求之间的信息泄露,并允许攻击者完全控制发送给同一批次中其他用户的模型响应。换句话说,一个能够改变模型架构的攻击者可以设置和窃取同一批次中其他用户的模型输入和输出。我们表明,这类攻击不仅可行,而且效果惊人,可以轻易地注入到流行的模型架构中,并对用户隐私和系统完整性构成真正的恶意威胁。至关重要的是,为了对抗这类新的漏洞,我们提出了一种确定性的缓解策略,与依赖大型语言模型寻找后门的先前工作不同,它提供了针对这种新攻击向量的正式保证。我们的缓解策略采用了一种新颖的信息流控制机制,分析模型图并证明同一批次中不同用户输入之间的非干扰性。使用我们的缓解策略,我们对通过 Hugging Face 托管的模型进行了大规模分析,发现有超过 200 个模型由于使用动态量化而在批次条目之间引入了(非预期的)信息泄露。
查看 arXiv 页面查看 PDF

评论

ii
论文作者
论文提交者

本文介绍了一种新型的架构后门,专门设计用于利用神经网络中的批处理推理,使攻击者能够窃取同一批次中处理的其他用户的数据或操纵其输出。这些后门是有效的,并且可以很容易地注入到 Transformer 等常见架构的 ONNX 检查点中。为了对抗这一威胁,我们提出了一种确定性的缓解策略,称为“批处理隔离检查器”,该策略使用信息流分析模型图,并证明批处理中不同用户输入之间互不干扰。