⏶1
通过紧凑表示下一词元分布改进语言模型反演
发表
由
Matthew Finlayson 提交
作者: Murtaza Nazir, Matthew Finlayson, John X. Morris, Xiang Ren, Swabha Swayamdipta
摘要
语言模型反演旨在仅利用语言模型输出恢复隐藏提示。这种能力对语言模型部署中的安全性和问责制具有影响,例如泄露受API保护的语言模型的系统消息中的私人信息。我们提出了一种新方法——基于对数概率序列的提示反演(PILS)——通过在多个生成步骤中从模型的下一个词元概率中收集线索来恢复隐藏提示。我们的方法得益于一个关键见解:语言模型的向量值输出占据一个低维子空间。这使我们能够使用线性映射对多个生成步骤中的完整下一个词元概率分布进行无损压缩,从而允许将更多的输出信息用于反演。我们的方法在恢复隐藏提示方面比以前的SOTA方法取得了巨大进步,在所有测试集上实现了2-3.5倍的精确恢复率提升,在某个案例中将恢复率从17%提高到60%。我们的方法还表现出惊人的良好泛化行为;例如,一个在16个生成步骤上训练的反演器,当我们在测试时将步骤数增加到32时,其提示恢复率提高了5-27个百分点。此外,我们展示了我们的方法在更具挑战性的恢复隐藏系统消息任务上的强大性能。我们还分析了逐字重复在提示恢复中的作用,并提出了一种新的基于logit的反演器跨家族模型迁移方法。我们的发现表明,下一个词元概率是比以往所知更易受反演攻击的攻击面。
我们训练了一个提示窃取模型,其准确度比此前SoTA(最新技术水平)高出多达3倍。我们通过利用LLM输出层的数学特性,紧凑地表示LLM输出,从而实现了这一目标。