使用代理模型评估LLM在资源匮乏语言中的鲁棒性

发表
Maciej ChrabąszczMaciej Chrabąszcz 提交
作者: Maciej ChrabąszczMaciej Chrabąszcz, LLM AttackKatarzyna Lorenc, Karolina SewerynKarolina Seweryn

摘要

大型语言模型(LLMs)近年来在各种自然语言处理(NLP)任务中展现出令人印象深刻的能力。然而,它们易受“越狱”(jailbreaks)和扰动(perturbations)的影响,这需要额外的评估。许多大型语言模型是多语言的,但安全相关的训练数据主要包含英语等高资源语言。这可能使它们容易受到波兰语等低资源语言的扰动。我们展示了如何通过仅修改几个字符并使用一个小型代理模型进行词汇重要性计算,从而廉价地创建出出奇强大的攻击。我们发现这些字符级和词级攻击显著改变了不同大型语言模型的预测,这表明存在一个潜在的漏洞,可用于规避其内部安全机制。我们验证了我们在波兰语(一种低资源语言)上的攻击构建方法,并发现了大型语言模型在该语言中潜在的漏洞。此外,我们展示了如何将其扩展到其他语言。我们发布了所创建的数据集和代码,以供进一步研究。
查看 arXiv 页面查看 PDF

评论

Maciej ChrabąszczMaciej Chrabąszcz
论文作者
论文提交者

大型语言模型 (LLM) 近年来在各种自然语言处理 (NLP) 任务中展现出令人印象深刻的能力。然而,它们易受“越狱”和扰动攻击的特性,使得进行额外的评估变得必要。许多 LLM 是多语言的,但安全相关的训练数据主要包含英语等高资源语言。这使得它们在波兰语等低资源语言中容易受到扰动攻击。我们展示了通过修改少量字符并使用小型代理模型进行词语重要性计算,如何廉价地创建出令人惊讶的强大攻击。我们发现这些字符级和词语级攻击显著改变了不同 LLM 的预测结果,这表明存在一个潜在漏洞,可用于规避其内部安全机制。我们用波兰语(一种低资源语言)验证了我们的攻击构建方法,并发现 LLM 在这种语言中存在潜在漏洞。此外,我们还展示了如何将其扩展到其他语言。我们发布了所创建的数据集和代码,以供进一步研究。