⏶1
Locket: 语言模型的鲁棒特征锁定技术
发表
由
Lipeng (Tony) He 提交

作者:
Lipeng He, Vasisht Duddu, N. Asokan

摘要
聊天机器人提供商(例如OpenAI)依赖于分级订阅方案来产生收入,为免费用户提供基本模型,为付费订阅者提供高级模型。然而,为高级功能(例如数学、编码)提供更细粒度的付费解锁方案被认为对提供商来说更具经济可行性。这种方案需要一种特征锁定技术(FLoTE),该技术(i)在拒绝锁定功能方面有效,(ii)对未解锁功能具有效用保持性,(iii)能抵御逃避或未经授权的凭证共享,并且(iv)可扩展到多个功能和用户。然而,现有的FLoTE(例如密码锁定模型)不够稳健或可扩展。我们提出了Locket,第一个能够实现付费解锁方案的稳健且可扩展的FLoTE。Locket使用一种新颖的合并方法,将适配器附加到LLM上,以拒绝未经授权的功能。我们全面的评估表明,Locket是有效的(在锁定功能上100%拒绝),效用保持性好(在未解锁功能上效用下降leq 7%),稳健(攻击成功率leq 5%),并且可以扩展到多个功能和客户端。
然而,这种“全有或全无”的方法对用户而言是无利可图且缺乏灵活性的: - https://x.com/sama/status/1876104315296968813 - https://x.com/sama/status/1978129344598827128
针对高级功能(例如数学、编码)和特定模型能力(例如医疗诊断、年龄限制)的按需解锁付费方案 🔐 提供了一种更可持续的替代方案。在本工作中,我们提出了一种功能锁定技术(FLoTE),该技术: - 在拒绝锁定功能方面有效, - 对未锁定功能保留实用性, - 鲁棒,能够抵御规避或未经授权的凭据共享,并且 - 可扩展,能够支持多个功能和客户端。
这项工作代表了朝着更细粒度控制生成模型行为迈出的初步步伐,可能为未来许多应用提供支持。