⏶1
SHARP:通过风险概况进行社会伤害分析,以衡量大语言模型中的不平等性
发表
由
Alok Abhishek 提交
作者:
Alok Abhishek, Tushar Bandopadhyay, Lisa Erickson
摘要
AI 生成总结
大语言模型在多个维度上表现出不同程度的社会风险,其最坏情况下的行为存在显著差异,这是传统的标量评估指标无法捕捉到的。大语言模型 (LLM) 越来越多地被部署在涉及重大利害关系的领域,在这些领域,罕见但严重的故障可能导致不可逆转的伤害。然而,流行的评估基准通常将复杂的社会风险简化为以均值为中心的标量得分,从而掩盖了分布结构、跨维度交互和最坏情况行为。本文介绍了通过风险画像进行的社会危害分析 (SHARP),这是一个用于多维度、分布感知的社会危害评估框架。SHARP 将危害建模为多元随机变量,并将显式分解为偏见、公平性、伦理和认知可靠性,结合重新参数化为加性累积对数风险的失败并集聚合。该框架进一步采用风险敏感型分布统计,以条件风险价值 (CVaR95) 为主要指标,来表征模型的最坏情况行为。将 SHARP 应用于 11 个前沿 LLM(在由 n=901 个社会敏感提示组成的固定语料库上评估)后发现,平均风险相似的模型在尾部风险暴露和波动性方面可能表现出两倍以上的差异。跨模型来看,维度边际尾部行为在不同危害维度上呈系统性变化,其中偏见的尾部严重程度最强,认知和公平性风险处于中间区域,伦理失调始终较低;这些模式共同揭示了标量基准所掩盖的异构、模型相关的失败结构。这些发现表明,负责任的 LLM 评估与治理需要超越标量平均值,转向多维度、尾部敏感的风险画像分析。
大语言模型(LLM)正越来越多地应用于高风险领域,在这些领域,罕见但严重的失败可能导致不可逆转的伤害。然而,现有的评估基准通常将复杂的社会风险简化为以均值为中心的标量分数,从而掩盖了分布结构、跨维度交互以及最坏情况下的行为。本文引入了通过风险分析进行社会伤害分析(SHARP)框架,用于对社会伤害进行多维度、关注分布的评估。SHARP 将伤害建模为一个多元随机变量,并将偏见、公平性、伦理和认知可靠性的显式分解与重新参数化为加性累积对数风险的失败并集聚合相结合。该框架进一步采用风险敏感的分布统计数据,以条件风险价值(CVaR95)作为主要指标,来刻画最坏情况下的模型行为。将 SHARP 应用于 11 个前沿 LLM(在包含 n=901 个社会敏感提示词的固定语料库上进行评估)后发现,平均风险相似的模型在尾部暴露和波动性方面可能表现出两倍以上的差异。在不同模型中,维度边际尾部行为在伤害维度上呈现出系统性变化,其中偏见表现出最强的尾部严重性,认知和公平性风险处于中间状态,而伦理失准始终较低;这些模式共同揭示了标量基准所混淆的异构、模型依赖的失败结构。这些发现表明,对 LLM 进行负责任的评估和治理需要超越标量平均值,转向多维、尾部敏感的风险分析。