大型语言模型中的个性化安全:一个基准与一种基于规划的智能体方法

发表
Yuchen WuYuchen Wu 提交
作者: Yuchen WuYuchen Wu, Edward SunEdward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong WangJindong Wang

摘要

大型语言模型(LLMs)通常对于相同的提示词为所有用户生成相同或相似的回复,这在用户脆弱性差异很大的高风险应用中构成了严重的安全风险。现有的安全评估主要依赖于上下文无关的度量标准——例如事实性、偏见或有害性——忽略了同一回复可能根据用户的背景或状况而带来不同风险的事实。我们引入个性化安全来填补这一空白,并提出了 PENGUIN——一个包含七个敏感领域 14,000 个场景的基准,这些场景具有上下文丰富和上下文无关两种变体。通过评估六个领先的 LLMs,我们证明了个性化的用户信息将安全评分显著提高了 43.2%,证实了个性化在安全对齐中的有效性。然而,并非所有上下文属性都能对安全增强做出同等贡献。为了解决这个问题,我们开发了 RAISE——一个无需训练的两阶段代理框架,能够策略性地获取用户特定的背景信息。相比于六个普通的 LLMs,RAISE 将安全评分提高了高达 31.6%,同时保持较低的交互成本,平均每次交互只需 2.7 个用户查询。我们的研究结果强调了在安全关键领域选择性信息收集的重要性,并提供了一种实用的解决方案,可以在无需重新训练模型的情况下个性化 LLM 回复。这项工作为安全研究奠定了基础,使研究能够适应个体用户的上下文,而不是假设通用的伤害标准。
查看 arXiv 页面查看 PDF

评论

Yuchen WuYuchen Wu
论文作者
论文提交者

一个全面可靠的 LLM 个性化安全基准

✅ 每个任务都精心设计了自动评估流程,确保可靠性

✅ 第一个个性化安全基准

✅ 全面:7 个场景,14000 个示例