⏶2
我思故我在(不胜任)?用于评估大型语言模型招聘评估中语言门槛(shibboleth)检测的基准
发表
由
Aman Chadha 提交

作者: Julia Kharchenko, Tanya Roosta,
Aman Chadha, Chirag Shah

摘要
本文引入了一个综合基准,用于评估大型语言模型(LLM)如何回应语言试金石:那些可能无意中揭示人口属性(如性别、社会阶层或地域背景)的细微语言标记。通过精心构建的访谈模拟,使用100对经过验证的问题-回答对,我们展示了LLM如何系统地惩罚某些语言模式,特别是模糊语言,尽管内容质量相当。我们的基准生成受控的语言变体,在保持语义等效性的同时隔离特定现象,从而能够精确测量自动化评估系统中的人口偏见。我们沿着多个语言维度验证了我们的方法,表明模糊回答的评分平均降低了25.6%,并证明了该基准在识别模型特定偏见方面的有效性。这项工作为检测和测量人工智能系统中的语言歧视建立了一个基础框架,在自动化决策情境中的公平性方面具有广泛应用。
本论文提出并验证了一个受控基准框架,用于检测和量化 LLM 驱动的招聘评估中存在的语言石板效应偏见——例如“对冲”(hedging)等微妙的语言线索。研究揭示了尽管内容等效,某些语言风格仍会受到系统性惩罚。