⏶23
语言模型的终身安全对齐
发表
由
Tianyu Pang 提交

作者: Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang,
Tianyu Pang

摘要
LLM 取得了令人瞩目的进展,但其不断增长的能力也使其面临高度灵活的越狱攻击,这些攻击旨在绕过安全对齐。虽然许多现有防御措施侧重于已知类型的攻击,但更关键的是让 LLM 准备好应对在部署过程中可能出现的未知攻击。为了解决这个问题,我们提出了一个终身安全对齐框架,使 LLM 能够持续适应新的和不断演变的越狱策略。我们的框架引入了两个组件之间的竞争设置:一个 Meta-Attacker,经过训练以主动发现新颖的越狱策略,以及一个 Defender,经过训练以抵抗它们。为了有效地预热 Meta-Attacker,我们首先利用 GPT-4o API 从大量与越狱相关的研究论文中提取关键见解。通过迭代训练,第一次迭代的 Meta-Attacker 在 RR 上取得了 73% 的攻击成功率 (ASR),在 LAT 上使用单轮攻击取得了 57% 的转移 ASR。同时,Defender 逐步提高了其鲁棒性,最终将 Meta-Attacker 的成功率降低到仅 7%,从而使 LLM 在开放环境中的部署更安全、更可靠。代码可在 https://github.com/sail-sg/LifelongSafetyAlignment 获取。
大型语言模型 (LLM) 已取得令人瞩目的进展,但其不断增强的能力也使其面临高度灵活的越狱攻击,这些攻击旨在绕过安全对齐。虽然许多现有防御措施侧重于已知类型的攻击,但更关键的是让 LLM 准备好应对部署期间可能出现的未知攻击。为了解决这个问题,我们提出了一个终身安全对齐框架,使 LLM 能够持续适应新的和不断演变的越狱策略。我们的框架引入了两个组件之间的竞争设置:一个元攻击者,经过训练主动发现新的越狱策略;一个防御者,经过训练抵御这些策略。为了有效地预热元攻击者,我们首先利用 GPT-4o API 从大量与越狱相关的研究论文中提取关键见解。通过迭代训练,第一代元攻击者在使用单轮攻击时,在 RR 上达到了 73% 的攻击成功率 (ASR),在 LAT 上达到了 57% 的迁移 ASR。同时,防御者逐步提高了其鲁棒性,并最终将元攻击者的成功率降低到仅 7%,从而使 LLM 在开放式环境中的部署更加安全可靠。代码可在 此 https URL 获取。