Locket: 语言模型的鲁棒特征锁定技术

发表
Lipeng (Tony) HeLipeng (Tony) He 提交
作者: Lipeng (Tony) HeLipeng He, Vasisht Duddu, N. Asokan

摘要

聊天机器人提供商(例如OpenAI)依赖于分级订阅方案来产生收入,为免费用户提供基本模型,为付费订阅者提供高级模型。然而,为高级功能(例如数学、编码)提供更细粒度的付费解锁方案被认为对提供商来说更具经济可行性。这种方案需要一种特征锁定技术(FLoTE),该技术(i)在拒绝锁定功能方面有效,(ii)对未解锁功能具有效用保持性,(iii)能抵御逃避或未经授权的凭证共享,并且(iv)可扩展到多个功能和用户。然而,现有的FLoTE(例如密码锁定模型)不够稳健或可扩展。我们提出了Locket,第一个能够实现付费解锁方案的稳健且可扩展的FLoTE。Locket使用一种新颖的合并方法,将适配器附加到LLM上,以拒绝未经授权的功能。我们全面的评估表明,Locket是有效的(在锁定功能上100%拒绝),效用保持性好(在未解锁功能上效用下降leq 7%),稳健(攻击成功率leq 5%),并且可以扩展到多个功能和客户端。
查看 arXiv 页面查看 PDF

评论

Lipeng (Tony) HeLipeng (Tony) He
论文作者
论文提交者
LLM 聊天机器人服务的广泛采用催生了庞大且多元的用户群体,推高了计算和运营成本。提供商依靠分级订阅计划来创收 💰,为免费用户提供基础模型的黑盒访问权限,为付费订阅用户提供高级模型。

然而,这种“全有或全无”的方法对用户而言是无利可图且缺乏灵活性的: - https://x.com/sama/status/1876104315296968813 - https://x.com/sama/status/1978129344598827128

针对高级功能(例如数学、编码)和特定模型能力(例如医疗诊断、年龄限制)的按需解锁付费方案 🔐 提供了一种更可持续的替代方案。在本工作中,我们提出了一种功能锁定技术(FLoTE),该技术: - 在拒绝锁定功能方面有效, - 对未锁定功能保留实用性, - 鲁棒,能够抵御规避或未经授权的凭据共享,并且 - 可扩展,能够支持多个功能和客户端。

这项工作代表了朝着更细粒度控制生成模型行为迈出的初步步伐,可能为未来许多应用提供支持。