OMNIGUARD: 一种跨模态 AI 安全审核的有效方法

发表
Sahil VermaSahil Verma 提交
作者: Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh

摘要

大型语言模型(LLMs)新兴的能力引发了人们对其立即可能造成的有害误用的担忧。缓解这些担忧的核心方法是检测对模型的有害查询。当前的检测方法是易错的,并且特别容易受到利用模型能力泛化不匹配的攻击(例如,低资源语言中的提示或以图像和音频等非文本模态提供的提示)。为了应对这一挑战,我们提出了OMNIGUARD,一种用于检测跨语言和跨模态有害提示的方法。我们的方法(i)识别LLM/MLLM中跨语言或跨模态对齐的内部表示,然后(ii)使用它们构建一个语言无关或模态无关的分类器来检测有害提示。OMNIGUARD在多语言环境下将有害提示分类准确率比最强基线提高了11.57%,对于基于图像的提示提高了20.44%,并为基于音频的提示设定了新的SOTA。通过重新利用生成过程中计算的嵌入,OMNIGUARD也非常高效(比下一个最快的基线快约120倍)。代码和数据可在:https://github.com/vsahil/OmniGuard获取。
查看 arXiv 页面查看 PDF
OMNIGUARD: 一种跨模态 AI 安全审核的有效方法

评论

Sahil VermaSahil Verma
论文提交者

我们构建了一个新的 AI 安全审核模型 OmniGuard,它能以一种方法检测跨多种语言和多种模态的有害提示。它在检测三种模态(多语言文本、图像和音频)中的有害提示方面取得了最先进(SOTA)的结果。

OmniGuard 的工作原理是发现:

  1. 模型(LLM 或 MLLM)在语言或不同模态之间普遍共享的内部表示,以及

  2. 使用这些表示构建分类器

使用内部表示进行安全分类,避免了对独立 Guard 模型的需要,同时使 OmniGuard 比下一个最快的基线 Guard 模型快约 120 倍。