防御 Gemini 对抗间接提示注入的经验教训

发表
ii 提交
作者: C ShiChongyang Shi, Sharon Lin, Shuang Song, Jamie Hayes, iIlia Shumailov, Itay YonaItay Yona, juliette plutoJuliette Pluto, Aneesh Pappu, Christopher A. Choquette-ChooChristopher A. Choquette-Choo, Milad Nasr, Chawin SitawarinChawin Sitawarin, Gena Gibson, Andreas Terzis, John "Four" Flynn

摘要

Gemini 越来越多地代表用户执行任务,其中函数调用和工具使用能力使模型能够访问用户数据。然而,某些工具需要访问不受信任的数据,这带来了风险。攻击者可以在不受信任的数据中嵌入恶意指令,导致模型偏离用户的期望,并错误处理用户的数据或权限。在本报告中,我们阐述了 Google DeepMind 评估 Gemini 模型对抗性鲁棒性的方法,并描述了从该过程中获得的主要经验教训。我们通过一个对抗性评估框架测试了 Gemini 如何应对复杂的攻击者,该框架部署了一系列自适应攻击技术,持续针对 Gemini 的过去、当前和未来版本运行。我们描述了这些持续的评估如何直接帮助提高 Gemini 对操纵的弹性。
查看 arXiv 页面查看 PDF

评论

ii
论文作者
论文提交者

这篇论文概述了 Google Deepmind 安全研究团队如何评估 Gemini 对间接提示注入的鲁棒性。