⏶7
IberBench:在伊比利亚语言上的 LLM 评估
发表
由
Areg Mikael Sarvazyan 提交

作者:
José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan,
Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador

摘要
大语言模型(LLMs)仍然难以全面评估,特别是对于英语以外的语言,高质量数据往往有限。现有基准和排行榜主要以英语为中心,只有少数涉及其他语言。这些基准在几个关键方面存在不足:它们忽视了语言变体的多样性,优先考虑基础自然语言处理(NLP)能力而非工业相关任务,并且是静态的。考虑到这些方面,我们提出了IberBench,这是一个全面且可扩展的基准,旨在评估LLM在伊比利亚半岛和伊比利亚美洲使用的语言中,在基础和工业相关NLP任务上的性能。IberBench整合了来自评估活动和近期基准的101个数据集,涵盖了22个任务类别,如情感和情绪分析、毒性检测和摘要。该基准通过支持持续更新以及由专家委员会主持的社区驱动的模型和数据集提交,解决了当前评估实践中的关键局限性,例如缺乏语言多样性和静态评估设置。我们评估了23个参数范围从1亿到140亿的LLM,并提供了对其优势和局限性的实证见解。我们的发现表明:(i)LLM在工业相关任务上的表现不如基础任务,(ii)对于加利西亚语和巴斯克语,性能平均较低,(iii)一些任务的结果接近随机,以及(iv)在其他任务中,LLM的表现高于随机但低于共享任务系统。IberBench提供了整个评估流程的开源实现,包括数据集规范化和托管、LLM的增量评估以及公开可访问的排行榜。
排行榜:https://huggingface.co/spaces/iberbench/leaderboard Github:https://github.com/IberBench