⏶2
简单 N-Gram 覆盖率在成员推理中的惊人效果
发表
由
Skyler Hallinan 提交

作者:
Skyler Hallinan, Jaehun Jung, Melanie Sclar, Ximing Lu, Abhilasha Ravichander, Sahana Ramnath, Yejin Choi, Sai Praneeth Karimireddy, Niloofar Mireshghallah, Xiang Ren

摘要
成员推断攻击是实现语言模型公平使用的有效工具,例如用于检测潜在的版权侵权和审查数据泄露。然而,许多当前最先进的攻击方法需要访问模型的隐藏状态或概率分布,这使得对像 GPT-4 这样更广泛使用的、仅提供 API 访问的模型进行调查变得不可能。在这项工作中,我们引入了 N-Gram 覆盖攻击,这是一种仅依赖于目标模型文本输出的成员推断攻击方法,从而能够攻击完全黑箱的模型。我们利用了这样一个观察:模型更有可能记住并随后生成其训练数据中常见的文本模式。具体来说,为了对一个候选成员进行预测,N-Gram 覆盖攻击首先以该候选成员的前缀为条件,从模型获取多个生成结果。然后,它使用 n-gram 重叠度量来计算并汇总这些输出与真实后缀的相似度;高相似度表明其很可能是成员。我们首先在一系列多样化的现有基准上证明,N-Gram 覆盖攻击的性能优于其他黑箱方法,并且令人印象深刻的是,尽管只能访问文本输出,它仍能达到与最先进的白箱攻击相当甚至更好的性能。有趣的是,我们发现我们方法的成功率与攻击的计算预算成正比——随着我们从目标模型中基于前缀生成的序列数量增加,攻击性能也趋于提升。在验证了我们方法的准确性后,我们用它来研究之前未被研究过的多个领域的闭源 OpenAI 模型。我们发现,像 GPT-4o 这样的较新模型对成员推断表现出更强的鲁棒性,这表明隐私保护方面存在着不断改进的趋势。