关于大型语言模型水印的可靠性

06月07日发表
04月12日由 AKAK 提交
作者: John KirchenbauerJohn Kirchenbauer, Jonas GeipingJonas Geiping, Yuxin WenYuxin Wen, Manli ShuManli Shu, Khalid SaifullahKhalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum, Tom Goldstein

摘要

大型语言模型 (LLM) 现在已部署到日常使用中,并有望在未来十年内生成大量文本。机器生成的文本可能会取代互联网上的人工撰写文本,并有可能被用于恶意目的,例如鱼叉式网络钓鱼攻击和社交媒体机器人。水印是一种简单有效的策略,可通过启用 LLM 生成文本的检测和记录来减轻此类危害。然而,一个关键问题仍然存在:在野外的真实环境中,水印的可靠性如何?在那里,水印文本可能与其他文本来源混合,被人类作者或其他语言模型释义,并用于社会和技术领域的广泛应用。在本文中,我们探讨了不同的检测方案,量化了它们检测水印的能力,并确定在每种情况下需要观察多少机器生成的文本才能可靠地检测到水印。我们特别强调我们的人类研究,我们在其中调查了面对人类释义时水印的可靠性。我们将基于水印的检测与其他检测策略进行比较,总体而言,我们发现水印是一种可靠的解决方案,尤其是在其样本复杂性方面——对于我们考虑的所有攻击,水印证据都会随着给出更多示例而复合,并且水印最终会被检测到。

评论