⏶2

OMNIGUARD: 一种跨模态 AI 安全审核的有效方法

05月29日发表

06月02日由 Sahil Verma 提交

作者: Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh

摘要

大型语言模型（LLMs）新兴的能力引发了人们对其立即可能造成的有害误用的担忧。缓解这些担忧的核心方法是检测对模型的有害查询。当前的检测方法是易错的，并且特别容易受到利用模型能力泛化不匹配的攻击（例如，低资源语言中的提示或以图像和音频等非文本模态提供的提示）。为了应对这一挑战，我们提出了OMNIGUARD，一种用于检测跨语言和跨模态有害提示的方法。我们的方法（i）识别LLM/MLLM中跨语言或跨模态对齐的内部表示，然后（ii）使用它们构建一个语言无关或模态无关的分类器来检测有害提示。OMNIGUARD在多语言环境下将有害提示分类准确率比最强基线提高了11.57%，对于基于图像的提示提高了20.44%，并为基于音频的提示设定了新的SOTA。通过重新利用生成过程中计算的嵌入，OMNIGUARD也非常高效（比下一个最快的基线快约120倍）。代码和数据可在：https://github.com/vsahil/OmniGuard获取。

查看 arXiv 页面查看 PDF

Sahil Verma

论文提交者

我们构建了一个新的 AI 安全审核模型 OmniGuard，它能以一种方法检测跨多种语言和多种模态的有害提示。它在检测三种模态（多语言文本、图像和音频）中的有害提示方面取得了最先进（SOTA）的结果。

OmniGuard 的工作原理是发现：

模型（LLM 或 MLLM）在语言或不同模态之间普遍共享的内部表示，以及
使用这些表示构建分类器

使用内部表示进行安全分类，避免了对独立 Guard 模型的需要，同时使 OmniGuard 比下一个最快的基线 Guard 模型快约 120 倍。

OMNIGUARD: 一种跨模态 AI 安全审核的有效方法

摘要

评论