⏶8
超越表面:衡量大型语言模型判断中的自我偏好
发表
由
Zhi-Yuan Chen 提交

作者:
Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin

摘要
最近的研究表明,大型语言模型(LLM)在充当裁判时表现出自我偏好偏差,这意味着它们倾向于偏爱自己的响应而非其他模型生成的响应。现有方法通常通过计算裁判模型给自己响应的评分与给其他模型响应的评分之间的差异来衡量这种偏差。然而,这种方法将自我偏好偏差与响应质量混为一谈,因为裁判模型产生的高质量响应也可能导致正向的评分差异,即使在没有偏差的情况下也是如此。为了解决这个问题,我们引入了黄金判决作为响应实际质量的代理,并提出了 DBG 分数,该分数将自我偏好偏差定义为裁判模型给自己响应的评分与相应的黄金判决之间的差异。由于黄金判决反映了真实的响应质量,DBG 分数减轻了响应质量对偏差测量的混淆效应。我们使用 DBG 分数进行了全面的实验,以评估不同版本、大小和推理能力的 LLM 的自我偏好偏差。此外,我们还研究了影响和有助于缓解自我偏好偏差的两个因素:响应文本风格和裁判模型的训练后数据。最后,我们从基于注意力的角度探讨了自我偏好偏差的潜在底层机制。我们的代码和数据可在 https://github.com/zhiyuanc2001/self-preference 获取。
在这项工作中,我们提出了DBG分数,以可靠地衡量大型语言模型评估器的自我偏好偏差。利用这一指标,我们进行了全面的实验,以评估大型语言模型在不同版本、大小和推理能力方面的自我偏好偏差。此外,我们探讨了影响并有助于减轻自我偏好偏差的两个因素:回复文本风格和评估器的训练后数据。最后,我们从注意力层面的角度研究了这种偏差的潜在机制。我们的代码和数据可在 https://github.com/zhiyuanc2001/self-preference 获取。