⏶6
Phare:大型语言模型的安全探针
发表
由
Pierre Le Jeune 提交
作者:
Pierre Le Jeune,
Benoît Malézieux,
Weixuan Xiao, Matteo Dora
摘要
确保大型语言模型 (LLM) 的安全对于负责任的部署至关重要,然而现有评估通常优先考虑性能而非识别失效模式。我们引入 Phare,这是一个多语言诊断框架,用于探测和评估 LLM 在三个关键维度的行为:幻觉和可靠性、社会偏见以及有害内容生成。我们对 17 个最先进的 LLM 的评估揭示了所有安全维度的系统性漏洞模式,包括谄媚、提示敏感性和刻板印象再现。通过突出这些具体的失效模式而不是简单地对模型进行排名,Phare 为研究人员和实践者提供了可操作的见解,以构建更鲁棒、对齐和值得信赖的语言系统。
Phare 是一个多语言框架,用于在多个安全维度上探测大型语言模型(LLM),包括:幻觉、偏见和刻板印象以及有害内容。