⏶1

Locket: 语言模型的鲁棒特征锁定技术

10月14日发表

10月15日由 Lipeng (Tony) He 提交

作者: Lipeng He, Vasisht Duddu, N. Asokan

摘要

聊天机器人提供商（例如OpenAI）依赖于分级订阅方案来产生收入，为免费用户提供基本模型，为付费订阅者提供高级模型。然而，为高级功能（例如数学、编码）提供更细粒度的付费解锁方案被认为对提供商来说更具经济可行性。这种方案需要一种特征锁定技术（FLoTE），该技术（i）在拒绝锁定功能方面有效，（ii）对未解锁功能具有效用保持性，（iii）能抵御逃避或未经授权的凭证共享，并且（iv）可扩展到多个功能和用户。然而，现有的FLoTE（例如密码锁定模型）不够稳健或可扩展。我们提出了Locket，第一个能够实现付费解锁方案的稳健且可扩展的FLoTE。Locket使用一种新颖的合并方法，将适配器附加到LLM上，以拒绝未经授权的功能。我们全面的评估表明，Locket是有效的（在锁定功能上100%拒绝），效用保持性好（在未解锁功能上效用下降leq 7%），稳健（攻击成功率leq 5%），并且可以扩展到多个功能和客户端。

查看 arXiv 页面查看 PDF

Lipeng (Tony) He

论文作者

论文提交者

LLM 聊天机器人服务的广泛采用催生了庞大且多元的用户群体，推高了计算和运营成本。提供商依靠分级订阅计划来创收 💰，为免费用户提供基础模型的黑盒访问权限，为付费订阅用户提供高级模型。

然而，这种“全有或全无”的方法对用户而言是无利可图且缺乏灵活性的： - https://x.com/sama/status/1876104315296968813 - https://x.com/sama/status/1978129344598827128

针对高级功能（例如数学、编码）和特定模型能力（例如医疗诊断、年龄限制）的按需解锁付费方案 🔐 提供了一种更可持续的替代方案。在本工作中，我们提出了一种功能锁定技术（FLoTE），该技术： - 在拒绝锁定功能方面有效， - 对未锁定功能保留实用性， - 鲁棒，能够抵御规避或未经授权的凭据共享，并且 - 可扩展，能够支持多个功能和客户端。

这项工作代表了朝着更细粒度控制生成模型行为迈出的初步步伐，可能为未来许多应用提供支持。

Locket: 语言模型的鲁棒特征锁定技术

摘要

评论