文本到图像扩散模型的个性化安全对齐

发表
Jinbin BaiJinbin Bai 提交
作者: Yu LeiYu Lei, Jinbin Bai, Qingyu Shi, Aosong Feng, Kaidong Yu

摘要

文本到图像扩散模型彻底改变了视觉内容生成,但现有的安全机制采用统一标准,往往未能考虑到个人用户偏好。这些模型忽略了由年龄、心理健康和个人信仰等因素塑造的各种安全边界。为了解决这个问题,我们提出了个性化安全对齐(PSA),一个允许用户特定控制生成模型中安全行为的框架。PSA 将个性化用户配置文件集成到扩散过程中,调整模型的行为以匹配个人安全偏好,同时保持图像质量。我们引入了一个新的数据集 Sage,它捕获用户特定的安全偏好,并通过交叉注意力机制整合这些配置文件。实验表明,PSA 在有害内容抑制方面优于现有方法,并且更好地将生成内容与用户约束对齐,实现了更高的 Win Rate 和 Pass Rate 分数。我们的代码、数据和模型已在 https://torpedo2648.github.io/PSAlign/ 公开提供。
查看 arXiv 页面查看 PDF

评论

Jinbin BaiJinbin Bai
论文提交者

🚨 个性化 AI 安全来了!

我们推出了 PSA——首个面向文本到图像生成的用户感知安全对齐系统。

🤖 如今的 AI 模型对每个人都应用相同的过滤器。但用户因年龄、信仰或心理健康而异。

因此我们构建了一个系统,它能:

🧬 从个人资料(年龄、性别、宗教、健康状况等)中学习您的安全偏好

🔁 使用交叉注意力适配器引导生成

📉 仅在 认为内容不安全时才抑制有害内容

结果?AI 对您来说更安全,而不仅仅是普遍安全。

📊 在有害内容清除和个性化方面优于基线。

📚 论文:https://arxiv.org/abs/2508.01151

💻 代码:https://github.com/M-E-AGI-Lab/PSAlign

🌐 项目:https://m-e-agi-lab.github.io/PSAlign/