保持安全! 对大语言模型在问答中应对间接攻击时的安全策略保持情况进行基准测试

发表
HWANCHANGHWANCHANG 提交
作者: HWANCHANGHwan Chang, Yumin KimYumin Kim, Yonghyun Jun, Hwanhee Lee

摘要

随着大语言模型 (LLMs) 越来越多地部署在企业和政府等敏感领域,确保它们在特定上下文中遵守用户定义的安保政策至关重要,特别是信息保密方面。虽然先前的 LLM 研究侧重于通用安全和涉及社会敏感数据,但缺乏针对攻击的上下文安保保存的大规模基准。为了解决这个问题,我们引入了一个新颖的大规模基准数据集 CoPriva,评估 LLM 在问答中遵守上下文保密政策的能力。我们的数据集源自现实情境,包含明确的政策和设计为直接攻击和寻求禁止信息的具有挑战性的间接攻击的查询。我们在我们的基准上评估了 10 个 LLM,并揭示了一个显著的漏洞:许多模型违反用户定义的政策并泄露敏感信息。这种失败在面对间接攻击时尤为严重,凸显了当前 LLM 面向敏感应用的安保对齐方面存在的关键差距。分析表明,虽然模型通常可以识别查询的正确答案,但在生成过程中难以整合政策约束。相比之下,它们在明确提示时表现出部分修改输出的能力。我们的发现强调迫切需要更强大的方法来保障上下文安保。
查看 arXiv 页面查看 PDF

评论

HWANCHANGHWANCHANG
论文作者
论文提交者

代码和数据:https://github.com/hwanchang00/CoPriva