⏶26
通过快捷神经元分析建立可靠的LLM评估
发表
由
Shangqing Tu 提交
作者: Kejian Zhu,
Shangqing Tu,
Zhuoran Jin, Lei Hou,
Juanzi Li, Jun Zhao
摘要
大型语言模型(LLM)的开发依赖于可信的评估。然而,目前大多数评估都依赖于公共基准,这些基准容易出现数据污染问题,严重损害了公平性。以往的研究主要集中于构建动态基准来解决污染问题。然而,持续构建新基准既昂贵又具有周期性。在这项工作中,我们旨在通过分析受污染模型本身的机制来解决污染问题。通过我们的实验,我们发现受污染模型的过高估计很可能是由于参数在训练中获得了捷径解决方案。我们进一步提出了一种通过比较和因果分析识别捷径神经元的新方法。在此基础上,我们引入了一种名为捷径神经元修补的评估方法,以抑制捷径神经元。实验验证了我们方法在缓解污染方面的有效性。此外,我们的评估结果与最近发布的可信基准MixEval呈现出很强的线性相关性,Spearman系数(rho)超过0.95。这种高相关性表明我们的方法能够密切揭示模型的真实能力,并且是可信的。我们进行了进一步的实验,以证明我们的方法在各种基准和超参数设置下的泛化能力。代码:https://github.com/GaryStack/Trustworthy-Evaluation
入选 ACL 2025 主会议