⏶7
SafeKey: 增强顿悟时刻洞察以进行安全推理
发表
由
Xin Eric Wang 提交
作者: Kaiwen Zhou, Xuandong Zhao, Gaowen Liu, Jayanth Srinivasa, Aosong Feng, Dawn Song, Xin Eric Wang
摘要
大型推理模型 (LRMs) 引入了一种新的生成范式,即在回答之前先进行显式推理,从而在复杂任务中取得了显著改进。然而,它们对有害查询和对抗性攻击构成了巨大的安全风险。虽然最近 LRMs 主流的安全工作,即监督微调 (SFT),提高了安全性能,但我们发现 SFT 对齐的模型难以泛化到未见过的越狱提示。经过对 LRMs 生成过程的深入研究,我们识别出了一个可以激活安全推理并产生安全响应的“安全顿悟时刻”(safety aha moment)。这个顿悟时刻通常出现在“关键句子”中,它紧随模型的查询理解过程,可以指示模型是否会安全地继续。基于这些洞察,我们提出了 SafeKey,包括两个互补的目标,以更好地激活关键句子中的安全顿悟时刻:(1) 一个双路径安全头(Dual-Path Safety Head),用于在关键句子之前增强模型内部表示中的安全信号;以及 (2) 一个查询掩码建模(Query-Mask Modeling)目标,用于提高模型对其查询理解的注意力,其中包含重要的安全提示。在多个安全基准上的实验表明,我们的方法显著提高了对各种越狱攻击和分布外有害提示的安全泛化能力,将平均有害率降低了 9.6%,同时保持了通用能力。我们的分析揭示了 SafeKey 如何通过重塑内部注意力和提高隐藏表示的质量来增强安全性。

网站: https://safekeylrm.github.io
代码: https://github.com/eric-ai-lab/SafeKey/
模型: https://huggingface.co/collections/kzhou35/safekey-682e1fe29f845acd875c0c8c