⏶2
当好声音变得对抗:用良性输入越狱音频-语言模型
发表
由
DongGeon Lee 提交
作者: Bodam Kim,
Hiskias Dingeto,
Taeyoun Kwon, Dasol Choi,
DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin


摘要
随着大型语言模型日益融入日常生活,音频已成为人机交互的关键接口。然而,这种便利性也带来了新的漏洞,使音频成为攻击者的潜在攻击面。我们的研究引入了WhisperInject,一个两阶段对抗性音频攻击框架,可以操纵最先进的音频语言模型生成有害内容。我们的方法在音频输入中使用人类听觉无法察觉的扰动,这些扰动对人类听众来说是无害的。第一阶段使用一种新颖的基于奖励的优化方法,即强化学习与投影梯度下降(RL-PGD),来引导目标模型规避其自身的安全协议并生成有害的本机响应。然后,这个有害的本机响应作为第二阶段——有效载荷注入的目标,我们使用投影梯度下降(PGD)来优化嵌入到良性音频载体(例如天气查询或问候消息)中的微小扰动。在严格的StrongREJECT、LlamaGuard以及人工评估安全评估框架下进行验证,我们的实验表明,在Qwen2.5-Omni-3B、Qwen2.5-Omni-7B和Phi-4-Multimodal上,成功率超过86%。我们的工作展示了一种新型的实用、音频原生威胁,超越了理论上的漏洞利用,揭示了一种可行且隐蔽的操纵AI行为的方法。
该论文介绍了WHISPERINJECT,一种两阶段、不可察觉的音频攻击,能够可靠地越狱音频语言模型。第一阶段使用RL-PGD使目标模型生成“原生”有害响应;第二阶段通过PGD将该有效载荷注入到听起来无害的音频(例如,天气或问候语)中。经过对StrongReject、LlamaGuard和人工评估的测试,它在Qwen2.5-Omni-3B/7B和Phi-4-Multimodal上实现了>86%的成功率,揭示了对AI安全的一种实用、隐蔽的音频原生威胁。