针对大规模数据集和(中等规模)大型语言模型的强成员推理攻击

发表
ii 提交
作者: Jamie Hayes, iIlia Shumailov, Christopher A. Choquette-Choo, Matthew JagielskiMatthew Jagielski, George Kaissis, Katherine Lee, Milad Nasr, Sahra GhalebikesabiSahra Ghalebikesabi, Niloofar Mireshghallah, Meenatchi Sundaram Mutu Selva Annamalai, Igor ShilovIgor Shilov, Matthieu MeeusMatthieu Meeus, Yves-Alexandre de MontjoyeYves-Alexandre de Montjoye, Franziska Boenisch, Adam Dziedzic, A. Feder CooperA. Feder Cooper

摘要

最先进的成员推理攻击 (MIAs) 通常需要训练大量的参考模型,这使得将这些攻击扩展到大型预训练语言模型 (LLMs) 变得困难。因此,先前的研究要么依赖于避免训练参考模型的较弱攻击(例如,微调攻击),要么将较强的攻击应用于小规模模型和数据集。然而,较弱的攻击已被证明是不稳定的——难以实现接近任意的成功率——并且简化设置下强攻击的见解无法直接应用于当今的 LLMs。这些挑战引出了一个重要问题:先前工作中观察到的局限性是由于攻击设计选择,还是 MIAs 在 LLMs 上根本无效?我们通过将 LiRA(最强的 MIAs 之一)扩展到参数范围从 10M 到 1B 的 GPT-2 架构,并在 C4 数据集上训练超过 20B tokens 的参考模型来解决这个问题。我们的结果从三个关键方面推进了对 LLMs 上 MIAs 的理解:(1) 强大的 MIAs 可以在预训练 LLMs 上取得成功;(2) 然而,它们的有效性在实际设置中仍然有限(例如,AUC<0.7);并且 (3) MIA 成功与相关隐私指标之间的关系不像先前工作所暗示的那么简单。
查看 arXiv 页面查看 PDF

评论

ii
论文作者
论文提交者

本文研究了强大的成员推理攻击 (MIAs) 对大型语言模型 (LLMs) 的有效性,通过将 LiRA 和 RMIA 攻击扩展到在海量数据集上训练的 GPT-2 模型。作者发现,虽然强大的 MIA 可以在预训练的 LLM 上取得成功,但在实际、真实的训练设置中,其整体有效性有限(例如,AUC<0.7)。