机器文本检测器是成员推断攻击

发表
Liam DuganLiam Dugan 提交
作者: Ryuto Koike, Liam DuganLiam Dugan, Masahiro Kaneko, Chris Callison-Burch, Naoaki Okazaki

摘要

AI 生成总结
理论和实证研究表明,成员推理攻击与机器生成文本检测之间存在很强的可迁移性,强调了跨任务协作的必要性,并引入 MINT 用于统一评估。
尽管成员推理攻击(MIAs)和机器生成文本检测的目标不同, 即识别训练样本和合成文本,但它们的方法通常利用基于语言模型概率分布的相似信号。 尽管有这种共同的方法基础,但这两项任务一直独立研究, 这可能导致忽视在另一项任务中开发出的更强方法和有价值的见解的结论。 在这项工作中,我们从理论和经验上研究了 MIAs 和机器文本检测之间的可迁移性,即最初为一项任务开发的方法在另一项任务上的表现如何。 对于我们的理论贡献,我们证明了在两项任务上都能实现渐近最高性能的度量是相同的。 我们在这项最优度量的背景下统一了现有文献的很大一部分, 并假设给定方法近似该度量的准确性与其可迁移性直接相关。 我们的大规模实证实验,包括 7 种最先进的 MIA 方法和 5 种最先进的机器文本检测器,跨越 13 个领域和 10 个生成器,证明了跨任务性能的非常强的秩相关性(rho > 0.6)。 我们特别发现,最初为机器文本检测设计的 Binoculars 在 MIA 基准测试中也取得了最先进的性能,证明了可迁移性的实际影响。 我们的发现强调了两个研究社区之间需要更大的跨任务意识和协作。 为了促进跨任务开发和公平评估,我们引入了 MINT, 一个用于 MIAs 和机器生成文本检测的统一评估套件,其中包含了来自两项任务的 15 种最新方法的实现。
查看 arXiv 页面查看 PDF

评论

Liam DuganLiam Dugan
论文作者
论文提交者

我们证明了机器生成文本检测器可以作为最先进的成员推理攻击,并证明了这两个任务的最佳公式是相同的。