⏶8
BenchHub:一个用于全面且可定制LLM评估的统一基准套件
发表
由
Eunsu Kim 提交
作者:
Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel,
Amit Agarwal,
Alice Oh
摘要
随着大型语言模型(LLM)的不断发展,对最新且组织良好的基准的需求变得越来越关键。然而,许多现有数据集分散、难以管理,使得难以进行针对特定需求或领域的评估,尽管领域特定模型在数学或代码等领域的重要性日益增长。在本文中,我们引入了BenchHub,一个动态基准存储库,它使研究人员和开发人员能够更有效地评估LLM。BenchHub聚合并自动分类来自不同领域的基准数据集,整合了38个基准中的303K个问题。它旨在支持持续更新和可扩展的数据管理,从而实现针对各种领域或用例的灵活和可定制的评估。通过对各种LLM家族进行广泛实验,我们证明了模型性能在领域特定子集之间存在显著差异,强调了领域感知基准的重要性。我们相信BenchHub可以鼓励更好地重用数据集、更透明的模型比较,并更容易识别现有基准中代表性不足的领域,为推进LLM评估研究提供了关键基础设施。
随着大型语言模型(LLMs)的不断发展,对最新且组织良好的基准的需求变得越来越关键。然而,尽管领域特定模型在数学或代码等领域的重要性日益增长,但许多现有数据集分散、难以管理,并且难以进行针对特定需求或领域的评估。在本文中,我们介绍了 BenchHub,一个动态基准存储库,它使研究人员和开发人员能够更有效地评估LLM。BenchHub聚合并自动分类来自不同领域的基准数据集,整合了38个基准中的30.3万个问题。它旨在支持持续更新和可扩展的数据管理,从而实现针对各种领域或用例的灵活且可定制的评估。通过对各种LLM家族进行广泛实验,我们证明了模型性能在特定领域子集之间存在显著差异,强调了领域感知基准测试的重要性。我们相信BenchHub可以促进更好的数据集重用、更透明的模型比较,以及更容易识别现有基准中代表性不足的领域,为推进LLM评估研究提供了关键基础设施。