Phare:大型语言模型的安全探针

发表
Pierre Le JeunePierre Le Jeune 提交
作者: Pierre Le JeunePierre Le Jeune, benoitBenoît Malézieux, Inoki at GiskardWeixuan Xiao, Matteo Dora

摘要

确保大型语言模型 (LLM) 的安全对于负责任的部署至关重要,然而现有评估通常优先考虑性能而非识别失效模式。我们引入 Phare,这是一个多语言诊断框架,用于探测和评估 LLM 在三个关键维度的行为:幻觉和可靠性、社会偏见以及有害内容生成。我们对 17 个最先进的 LLM 的评估揭示了所有安全维度的系统性漏洞模式,包括谄媚、提示敏感性和刻板印象再现。通过突出这些具体的失效模式而不是简单地对模型进行排名,Phare 为研究人员和实践者提供了可操作的见解,以构建更鲁棒、对齐和值得信赖的语言系统。
查看 arXiv 页面查看 PDF

评论

Pierre Le JeunePierre Le Jeune
论文作者
论文提交者

Phare 是一个多语言框架,用于在多个安全维度上探测大型语言模型(LLM),包括:幻觉、偏见和刻板印象以及有害内容。