“ rogue scalpel”:激活转向会损害 LLM 的安全性

发表
Alexey DontsovAlexey Dontsov 提交
作者: Anton Korznikov, Andrey Galichin, Alexey DontsovAlexey Dontsov, Oleg Y. Rogov, Ivan Oseledets, Elena TutubalinaElena Tutubalina

摘要

AI 生成总结
激活控制(Activation steering),旨在控制 LLM 的行为,反而可能增加有害的合规性,并破坏模型对齐保障。
激活转向是一种有前途的技术,可以通过在推理过程中直接将语义上有意义的向量添加到模型的隐藏状态来控制LLM的行为。它通常被视为一种精确、可解释且可能比微调更安全的方法。我们证明了相反的结果:转向系统性地破坏了模型的对齐安全措施,使其服从有害的请求。通过对不同模型家族进行的广泛实验,我们表明,即使是随机方向的转向也能将有害请求的服从概率从0%提高到2-27%。令人震惊的是,从稀疏自编码器(SAE)中提取良性特征(可解释方向的常见来源)进行转向,将这些比率进一步提高了2-4%。最后,我们展示了组合20个随机采样的能够越狱单个提示的向量,可以创建一个通用攻击,显著提高对未见过请求的有害服从率。这些结果挑战了“通过可解释性实现安全性”的范式,表明对模型内部的精确控制并不保证对模型行为的精确控制。
查看 arXiv 页面查看 PDF

评论

Alexey DontsovAlexey Dontsov
论文作者
论文提交者

激活引导——一种通过在 AI 模型的内部表示中添加向量来控制它们的 teknik——实际上会让模型变得不安全,而不是更安全。即使是随机的引导方向,也会将有害指令的服从率从 0% 提高到 27%,而使用稀疏自编码器中的“可解释”方向则会使情况变得更糟。我们表明,精确控制模型的内部状态并不能保证行为安全,这挑战了可解释性等同于安全性的观点。