⏶11
Eka-Eval:一个在印度语言中评估大型语言模型的综合框架
发表
由
Rajvee Sheth 提交

作者:
Samridhi Raj Sinha,
Rajvee Sheth, Abhishek Upperwal, Mayank Singh

摘要
大型语言模型(LLM)的快速发展,使得对评估框架的需求日益迫切。这些框架需要超越以英语为中心的基准测试,并满足印度等语言多样化地区的需求。我们推出了 EKA-EVAL,一个统一且生产就绪的评估框架,它整合了超过 35 个基准测试,其中包括 10 个印度语系特定数据集,涵盖推理、数学、工具使用、长文本理解和阅读理解等类别。与现有印度语言评估工具相比,EKA-EVAL 提供了更广泛的基准测试覆盖范围,并内置了分布式推理、量化和多 GPU 使用的支持。我们的系统性比较表明,EKA-EVAL 是首个为全球和印度语系 LLM 量身定制的端到端、可扩展评估套件,显著降低了多语言基准测试的门槛。该框架是开源的,可在 https://github.com/lingo-iitgn/eka-eval 公开获取,并且是正在进行的 EKA 倡议(https://eka.soket.ai)的一部分,该倡议旨在扩展到 100 多个基准测试,并为 LLM 建立一个健壮的多语言评估生态系统。
评论
arXiv explained 对这篇论文的解读 👉 https://arxivexplained.com/papers/eka-eval-a-comprehensive-evaluation-framework-for-large-language-models-in-indian-languages
摘要
大型语言模型(LLM)的快速发展,使得对评估框架的需求日益迫切。这些框架需要能够满足印度等语言多样性地区的独特需求,并超越以英语为中心的基准。我们引入了EKA-EVAL,一个统一的评估框架,它整合了九个主要评估类别中的35+个基准(包括10个印度语言基准)。该框架比现有印度语言评估工具提供更广泛的覆盖范围,通过模块化架构提供11项核心功能,并实现与Hugging Face和专有模型的无缝集成以及即插即用性。作为首个用于可扩展、多语言LLM基准测试的端到端套件,该框架结合了广泛的基准、模块化工作流,并为低资源印度语言提供专门支持,以实现对LLM在不同领域能力的包容性评估。我们与五个现有基线进行了广泛比较,结果表明EKA-EVAL在五个类别中的四个类别中获得了最高的参与者评分。该框架是开源的,并可在以下网址公开获取:https://github.com/lingo-iitgn/eka-eval。