⏶3
SoK:评估大型语言模型的越狱防护栏
发表
由
XunguangWang 提交
作者:
Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang
摘要
大语言模型(LLM)取得了显著进展,但其部署暴露了关键漏洞,特别是规避安全机制的越狱攻击。护栏——即监控和控制LLM交互的外部防御机制——已成为一种有前景的解决方案。然而,当前LLM护栏领域分散,缺乏统一的分类法和全面的评估框架。在这篇知识系统化(SoK)论文中,我们首次对LLM的越狱护栏进行了整体分析。我们提出了一种新颖的多维度分类法,从六个关键维度对护栏进行分类,并引入了安全-效率-实用性评估框架来评估其实际有效性。通过广泛的分析和实验,我们识别了现有护栏方法的优点和局限性,探索了它们在不同攻击类型中的普适性,并提供了优化防御组合的见解。我们的工作为未来的研究和开发奠定了结构化基础,旨在指导鲁棒LLM护栏的原则性推进和部署。代码可在https://github.com/xunguangwang/SoK4JailbreakGuardrails获取。
开始讨论这篇论文