量化大型语言模型中超越标记的公平性:一个语义和统计的视角

发表
Weijie XuWeijie Xu 提交
作者: Weijie XuWeijie Xu, Yiwen Wang, Chi Xue, Xiangkun Hu, Xi Fang, Guimin Dong, Chandan K. Reddy

摘要

大型语言模型(LLMs)生成的回答通常带有固有偏见,这削弱了它们在实际应用中的可靠性。现有的评估方法常常忽视长篇回复中的偏见以及LLM输出的内在可变性。为了应对这些挑战,我们提出了FiSCo(细粒度语义计算),这是一种新颖的统计框架,旨在通过检测不同人口统计群体长篇回复中细微的语义差异来评估LLM的群体层面公平性。与之前侧重于情感或令牌级(token-level)比较的工作不同,FiSCo超越了表面级分析,通过在主张(claim)层面运作,利用蕴含(entailment)检查来评估回答间的意义一致性。我们将模型输出分解为语义上不同的主张,并应用统计假设检验来比较组间和组内相似性,从而实现对细微偏见的稳健检测。我们形式化了一个新的群体反事实公平性定义,并在涵盖性别、种族和年龄的合成和人工标注数据集上验证了FiSCo。实验表明,FiSCo能更可靠地识别细致入微的偏见,同时减少LLM随机可变性的影响,表现优于各种评估指标。
查看 arXiv 页面查看 PDF

评论

Weijie XuWeijie Xu
论文作者
论文提交者

这是一篇使用统计方法在群体层面评估LLM偏见的论文。