⏶23

语言模型的终身安全对齐

05月26日发表

05月27日由 Tianyu Pang 提交

作者: Haoyu Wang, Zeyu Qin, Yifei Zhao, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang

摘要

LLM 取得了令人瞩目的进展，但其不断增长的能力也使其面临高度灵活的越狱攻击，这些攻击旨在绕过安全对齐。虽然许多现有防御措施侧重于已知类型的攻击，但更关键的是让 LLM 准备好应对在部署过程中可能出现的未知攻击。为了解决这个问题，我们提出了一个终身安全对齐框架，使 LLM 能够持续适应新的和不断演变的越狱策略。我们的框架引入了两个组件之间的竞争设置：一个 Meta-Attacker，经过训练以主动发现新颖的越狱策略，以及一个 Defender，经过训练以抵抗它们。为了有效地预热 Meta-Attacker，我们首先利用 GPT-4o API 从大量与越狱相关的研究论文中提取关键见解。通过迭代训练，第一次迭代的 Meta-Attacker 在 RR 上取得了 73% 的攻击成功率 (ASR)，在 LAT 上使用单轮攻击取得了 57% 的转移 ASR。同时，Defender 逐步提高了其鲁棒性，最终将 Meta-Attacker 的成功率降低到仅 7%，从而使 LLM 在开放环境中的部署更安全、更可靠。代码可在 https://github.com/sail-sg/LifelongSafetyAlignment 获取。

查看 arXiv 页面查看 PDF

Tianyu Pang

论文作者

论文提交者

大型语言模型 (LLM) 已取得令人瞩目的进展，但其不断增强的能力也使其面临高度灵活的越狱攻击，这些攻击旨在绕过安全对齐。虽然许多现有防御措施侧重于已知类型的攻击，但更关键的是让 LLM 准备好应对部署期间可能出现的未知攻击。为了解决这个问题，我们提出了一个终身安全对齐框架，使 LLM 能够持续适应新的和不断演变的越狱策略。我们的框架引入了两个组件之间的竞争设置：一个元攻击者，经过训练主动发现新的越狱策略；一个防御者，经过训练抵御这些策略。为了有效地预热元攻击者，我们首先利用 GPT-4o API 从大量与越狱相关的研究论文中提取关键见解。通过迭代训练，第一代元攻击者在使用单轮攻击时，在 RR 上达到了 73% 的攻击成功率 (ASR)，在 LAT 上达到了 57% 的迁移 ASR。同时，防御者逐步提高了其鲁棒性，并最终将元攻击者的成功率降低到仅 7%，从而使 LLM 在开放式环境中的部署更加安全可靠。代码可在此 https URL 获取。

语言模型的终身安全对齐

摘要

评论