音频越狱:一个用于越狱大型音频-语言模型的开放综合基准

发表
Zirui SongZirui Song 提交
作者: Zirui Song, Qian Jiang, Mingxuan Cui, Mingzhe Li, Lang Gao, Zeyu Zhang, Zixiang Xu, Yanbo Wang, Chenxi Wang, Guangxian Ouyang, Zhenhao Chen, Xiuying Chen

摘要

大型音频语言模型(LAMs)的兴起带来了潜力和风险,因为它们的音频输出可能包含有害或不道德的内容。然而,目前的研究缺乏对 LAM 安全性的系统性、定量评估,特别是针对越狱攻击,由于语音的时间和语义特性,这类攻击具有挑战性。为了弥合这一差距,我们引入了 AJailBench,这是第一个专门用于评估 LAM 越狱漏洞的基准测试。我们首先构建了 AJailBench-Base,一个包含 1,495 个对抗性音频提示的数据集,涵盖 10 个违反政策的类别,这些提示使用真实的文本到语音合成从文本越狱攻击转换而来。使用这个数据集,我们评估了几种最先进的 LAM,并发现没有一个模型在所有攻击中都表现出一致的鲁棒性。为了进一步加强越狱测试并模拟更真实的攻击条件,我们提出了一种生成动态对抗性变体的方法。我们的音频扰动工具包(APT)在时间、频率和幅度域应用有针对性的失真。为了保留原始的越狱意图,我们强制执行语义一致性约束,并采用贝叶斯优化来高效搜索既微妙又高效的扰动。这产生了 AJailBench-APT,一个包含优化对抗性音频样本的扩展数据集。我们的研究结果表明,即使是细微的、语义保留的扰动也能显著降低领先 LAM 的安全性能,这凸显了对更鲁棒和语义感知的防御机制的需求。
查看 arXiv 页面查看 PDF

评论