面具后的魔鬼:扩散式大型语言模型的新兴安全漏洞

发表
Zichen WenZichen Wen 提交
作者: Zichen WenZichen Wen, Joshua QuJiashu Qu, Dongrui Liu, Zhiyuan Liu, Ruixi Wu, Yicun Yang, Xiangqi Jin, Haoyun Xu, Xuyang Liu, Weijia Li, Chaochao Lu, Jing Shao, Conghui He, Linfeng Zhang

摘要

基于扩散的大型语言模型(dLLM)最近已成为自回归大型语言模型(LLM)的强大替代品,通过并行解码和双向建模提供更快的推理和更高的交互性。然而,尽管在代码生成和文本填充方面表现出色,我们发现了一个根本性的安全问题:现有的对齐机制未能保护dLLM免受上下文感知、掩码输入对抗性提示的攻击,从而暴露出新的漏洞。为此,我们提出了DIJA,这是第一个系统性研究和越狱攻击框架,它利用了dLLM独特的安全弱点。具体而言,我们提出的DIJA构建了对抗性的交错掩码-文本提示,利用了dLLM的文本生成机制,即双向建模和并行解码。双向建模促使模型为掩码部分生成上下文一致的输出,即使有害,而并行解码限制了模型对不安全内容的动态过滤和拒绝采样。这导致标准的对齐机制失效,使得经过对齐调整的dLLM能够完成有害内容,即使有害行为或不安全指令直接暴露在提示中。通过全面的实验,我们证明DIJA显著优于现有的越狱方法,揭示了dLLM架构中以前被忽视的威胁面。值得注意的是,我们的方法在Dream-Instruct上实现了高达100%的基于关键词的ASR,在JailbreakBench上基于评估器的ASR方面,比最强的现有基线ReNeLLM高出78.5%,在StrongREJECT得分上高出37.7分,同时在越狱提示中无需重写或隐藏有害内容。我们的发现强调了在这类新兴语言模型中重新思考安全对齐的紧迫性。代码可在 https://github.com/ZichenWen1/DIJA 获取。
查看 arXiv 页面查看 PDF

评论

Zichen WenZichen Wen
论文作者
论文提交者

扩散模型大语言模型(dLLMs)最近已成为自回归大语言模型的一种强大替代方案,通过并行解码和双向建模提供更快的推理速度和更高的交互性。然而,尽管在代码生成和文本填充方面表现出色,我们识别出一个根本性的安全问题:现有的对齐机制未能保护dLLMs免受上下文感知、掩码输入的对抗性提示的影响,从而暴露出新的漏洞。为此,我们提出了 DIJA,这是第一个系统性研究和越狱攻击框架,旨在利用dLLMs独特的安全弱点。具体来说,我们提出的DIJA构建了对抗性的交错掩码-文本提示,利用了dLLMs的文本生成机制,即双向建模和并行解码。双向建模驱动模型为掩码部分生成上下文一致的输出,即使这些输出有害;而并行解码限制了模型对不安全内容的动态过滤和拒绝采样。这导致标准对齐机制失效,使得对齐调整后的dLLMs能够生成有害的补全内容,即使有害行为或不安全指令直接暴露在提示中。通过全面的实验,我们证明DIJA显著优于现有越狱方法,揭示了dLLM架构中此前被忽视的威胁面。值得注意的是,我们的方法在Dream-Instruct上实现了高达100\%的基于关键词的ASR,在JailbreakBench上基于评估器的ASR方面超越了最强的现有基线ReNeLLM高达78.5\%,并在StrongREJECT得分方面高出37.7点,同时在越狱提示中无需重写或隐藏有害内容。我们的发现强调了在这类新兴语言模型中重新思考安全对齐的紧迫性。