⏶0
虚假的安全感:基于探测的恶意输入检测为何无法泛化
发表
由
Zeming Wei 提交
作者: Cheng Wang, Zeming Wei, Qin Liu, Muhao Chen
摘要
大型语言模型(LLMs)可以遵循有害指令,这引发了严重的安生问题,尽管它们具有令人印象深刻的能力。最近的工作利用基于探测的方法来研究LLMs内部表示中恶意和良性输入的区分性,研究人员建议使用这些探测方法进行安全检测。我们系统地重新审视了这一范例。受分布外性能不佳的启发,我们假设探测器学习的是表层模式而不是语义有害性。通过对照实验,我们证实了这一假设,并识别了所学的具体模式:指令模式和触发词。我们的研究遵循系统的方法,从展示简单n-gram方法的相当的性能,到使用语义清理的数据集的对照实验,再到对模式依赖性的详细分析。这些结果揭示了当前基于探测的方法的虚假安全感,并强调了重新设计模型和评估协议的必要性。我们希望为负责任的进一步研究提供进一步的讨论。我们已将该项目开源,网址为https://github.com/WangCheng0116/Why-Probe-Fails。
🚨虚假的安全感:我们的一篇新论文指出了基于表示探测的恶意输入检测中的一个关键局限性——所谓的“高检测准确率”可能会带来虚假的安全感:
核心发现:基于表示的探测分类器在分布内安全测试上实现了 ≥98% 的准确率,但在分布外数据上表现出显著的性能下降(下降 15%–99%),这表明未能学习真正的有害语义。
我们进一步进行了比较实验:首先,即使是简单的 n-gram 朴素贝叶斯模型也达到了与复杂的探测工具相媲美的性能。这表明探测分类器可能关注表面模式而非语义有害性检测。
进一步验证:当我们保留恶意数据集的结构特征但将有害内容(例如,“制造炸弹”)替换为良性替代品(例如,“制作面包”)时,探测准确率下降了 60-90%,证实了结构偏差而非有害性识别。
对学习到的模式的分析揭示了两个关键线索:1) 指令性语言格式(例如,“如何……”)和 2) 虚假的“与恶意相关的”触发词。结构性释义恢复了准确率,而向良性文本添加触发词则增加了假阳性。
这项工作引发了更广泛的问题:如果探测依赖于表面线索,那么现有的基于探测的见解(例如,关于真实性或幻觉)是否缺乏泛化能力?可能需要重新评估先前的结论。