⏶3
用于 LLM 红队测试的基于能力的扩展定律
发表
由
Alexander Panfilov 提交
作者:
Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping
摘要
随着大语言模型在能力和自主性方面不断增长,通过红队演习来识别漏洞对于安全部署至关重要。然而,一旦红队演习变成一个由弱到强的问题(即攻击者能力弱于目标模型),传统的提示工程方法可能会失效,其中目标模型的能力超过了红队成员。为了研究这种转变,我们从攻击者和目标之间的能力差距视角来构建红队演习。我们使用模仿人类红队成员的基于 LLM 的越狱攻击(jailbreak attacks)评估了 500 多对攻击者-目标组合,涵盖了不同系列、规模和能力水平的模型。出现了三个显著趋势:(i) 能力更强的模型是更好的攻击者;(ii) 一旦目标模型的能力超过攻击者,攻击成功率会急剧下降;(iii) 攻击成功率与在 MMLU-Pro 基准的社会科学子集上的高表现相关。基于这些趋势,我们推导出了一个越狱缩放定律 (jailbreaking scaling law),该定律根据攻击者-目标能力差距预测对固定目标的攻击成功率。这些发现表明,能力固定的攻击者(例如人类)在未来模型面前可能会失效;能力日益增强的开源模型加剧了现有系统的风险;模型提供者必须准确衡量和控制模型的说服和操纵能力,以限制其作为攻击者的有效性。
随着大语言模型在能力和能动性方面不断增强,通过红队测试识别漏洞对于安全部署至关重要。然而,一旦红队测试变成一个“弱到强”的问题,即目标模型在能力上超越红队人员,传统的提示工程方法可能就会失效。为了研究这一转变,我们从攻击者与目标之间能力差距的视角来审视红队测试。我们评估了 500 多个攻击者-目标对,使用模拟人类红队人员的基于 LLM 的越狱攻击,涵盖不同的家族、规模和能力水平。出现了三个显著趋势:(i) 能力更强的模型是更好的攻击者,(ii) 一旦目标的能力超过攻击者,攻击成功率就会急剧下降,(iii) 攻击成功率与在 MMLU-Pro 基准测试的社会科学分支上的高表现相关。从这些趋势中,我们推导出了一个越狱缩放律,用于基于攻击者-目标能力差距来预测固定目标的攻击成功率。这些发现表明,固定能力攻击者(例如人类)可能对未来的模型失效,能力不断增强的开源模型会放大现有系统的风险,模型提供者必须准确衡量和控制模型的说服和操纵能力,以限制其作为攻击者的有效性。