⏶3
QGuard:基于问题的多模态 LLM 安全零样本防护
发表
由
Taegyeong Lee 提交
作者: Taegyeong Lee, Jeonghwa Yoo, Hyoungseo Cho, Soo Yong Kim, Yunho Maeng
摘要
大型语言模型(LLM)的最新进展对从通用领域到专业领域的广泛领域产生了重大影响。然而,这些进步也大大增加了恶意用户利用有害和越狱提示进行恶意攻击的可能性。虽然已经有很多努力来防止有害提示和越狱提示,但保护 LLM 免受此类恶意攻击仍然是一项重要且具有挑战性的任务。在本文中,我们提出了一种简单但有效的安全防护方法 QGuard,该方法利用问题提示以零样本方式阻止有害提示。我们的方法不仅可以防御 LLM 免受基于文本的有害提示,还可以防御多模态有害提示攻击。此外,通过多样化和修改防护问题,我们的方法能够保持对最新有害提示的鲁棒性,而无需进行微调。实验结果表明,我们的模型在纯文本和多模态有害数据集上都表现出竞争力。此外,通过提供问题提示的分析,我们能够对用户输入进行白盒分析。我们相信我们的方法为现实世界的 LLM 服务提供了宝贵的见解,以减轻与有害提示相关的安全风险。
大型语言模型(LLMs)的最新进展对
从一般领域到专业领域的广泛领域产生了重大影响。 然而,这些
进步也大大增加了
恶意用户利用
有害和越狱提示进行恶意攻击的可能性。 虽然已经有很多努力来防止有害提示和越狱
提示,保护 LLM 免受此类恶意
攻击仍然是一项重要且具有挑战性的
任务。 在本文中,我们提出了 QGuard,一种
简单但有效的安全防护方法,它
利用问题提示以零样本方式阻止有害
提示。 我们的方法
不仅可以保护 LLM 免受基于文本的
有害提示,还可以抵御多模态
有害提示攻击。 此外,通过多样化和修改保护性问题,我们的方法在不进行微调的情况下,对最新的有害提示保持稳健性。 实验结果表明,我们的模型在纯文本和多模态
有害数据集上都具有竞争力。 此外,通过提供
对问题提示的分析,我们能够进行
用户输入的白盒分析。 我们相信我们的方法为
实际 LLM 服务在降低与有害提示相关的安全
风险方面提供了有价值的见解。