排行榜错觉

发表
taesiritaesiri 提交
作者: Shivalika SinghShivalika Singh, Yiyang NanYiyang Nan, WangAlex Wang, Daniel D'souzaDaniel D'Souza, Sayash KapoorSayash Kapoor, Ahmet ÜstünAhmet Üstün, Sanmi KoyejoSanmi Koyejo, Yuntian DengYuntian Deng, Shayne LongpreShayne Longpre, Noah Smith, Beyza ErmisBeyza Ermis, Marzieh FadaeeMarzieh Fadaee, Sara HookerSara Hooker

摘要

衡量进展是任何科学领域发展的基础。随着基准测试变得越来越重要,它们也越来越容易受到扭曲。Chatbot Arena 已成为衡量最强大的 AI 系统能力的常用排行榜。然而,在这项工作中,我们发现了一些导致竞争环境失真的系统性问题。我们发现,未公开的私下测试做法使少数提供商受益,他们能够在公开发布之前测试多个变体,并在需要时撤回分数。我们确定,这些提供商选择最佳分数的能力,由于选择性地披露性能结果,导致 Arena 分数出现偏差。在一个极端例子中,我们发现在 Llama-4 发布前夕,Meta 测试了 27 个私有的 LLM 变体。我们还发现,与开源和开放权重的替代方案相比,专有的闭源模型被抽样(对战次数)的频率更高,并且从 Arena 中移除的模型更少。这两项政策都导致了随着时间推移出现巨大的数据访问不对称性。像谷歌和 OpenAI 这样的提供商,分别估计获得了 Arena 上所有数据的 19.2% 和 20.4%。相比之下,总共 83 个开放权重模型仅获得了总数据的约 29.7%。我们表明,访问 Chatbot Arena 数据能带来显著的好处;根据我们的保守估计,即使是有限的额外数据,也能在 Arena 数据分布上带来高达 112% 的相对性能提升。总而言之,这些动态导致了模型对 Arena 特定动态的过拟合,而不是普遍的模型质量提升。Arena 建立在组织者和维护这一宝贵评估平台的开放社区所付出的巨大努力之上。我们提出了可操作的建议,以改革 Chatbot Arena 的评估框架,并在该领域推广更公平、更透明的基准测试。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

摘要:

> 衡量进展是任何科学领域进步的基础。随着基准测试扮演着越来越核心的角色,它们也变得更容易受到扭曲。Chatbot Arena 已成为衡量最强大AI系统排名的首选排行榜。然而,在这项工作中,我们发现了导致竞争环境扭曲的系统性问题。我们发现,未公开的私下测试做法让少数供应商受益,他们能够在公开发布之前测试多个变体,并在需要时撤回分数。我们确定,这些供应商选择最佳分数的能力导致了 Arena 分数的偏差,原因在于选择性地披露了性能结果。在一个极端案例中,我们发现在 Llama-4 发布之前,Meta 测试了 27 个私有 LLM 变体。我们还确定,与开源和开放权重的替代方案相比,专有的封闭模型以更高的速率(战斗次数)被采样,并且从 Arena 中移除的模型更少。这两种政策都导致了随时间推移产生巨大的数据访问不对称性。像谷歌和 OpenAI 这样的提供商分别获得了 Arena 上全部数据的约 19.2% 和 20.4%。相比之下,总共 83 个开放权重模型仅获得了总数据的约 29.7%。我们表明,访问 Chatbot Arena 数据能带来巨大的好处;根据我们的保守估计,即使有限的额外数据也能在 Arena 分布上带来高达 112% 的相对性能提升。总的来说,这些动态导致了模型过度拟合 Arena 特有的动态,而不是提升通用模型质量。Arena 是在组织者和维护这一宝贵评估平台的开放社区的巨大努力基础上建立起来的。我们提出了可行的建议,旨在改革 Chatbot Arena 的评估框架,并为该领域推广更公平、更透明的基准测试。