⏶8
MEENA(波斯多模态多语言评估):面向N级评估的多模态多语言教育考试
发表
由
Omid Ghahroodi 提交
作者:
Omid Ghahroodi,
Arshia Hemmat, Marzia Nouri,
Seyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian,
Alireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah

摘要
大型视觉语言模型(VLM)的最新进展主要集中在英语上,对其他语言的关注有限。为了弥补这一差距,我们引入了MEENA(也称为PersianMMMU),这是第一个旨在评估波斯VLM在科学、推理和人类水平理解任务上的数据集。我们的数据集包含约7,500个波斯语问题和3,000个英语问题,涵盖了广泛的主题,如推理、数学、物理、图表、图形以及波斯艺术和文学。MEENA的主要特点包括:(1)涵盖从小学到高中不同教育水平的多样化学科;(2)丰富的元数据,包括难度级别和描述性答案;(3)保留文化细微差别的原创波斯语数据;(4)用于评估跨语言性能的双语结构;(5)一系列多样的实验,评估各种能力,包括整体性能、模型关注图像的能力以及生成幻觉的倾向。我们希望这个基准能够促进VLM能力超越英语。

评论

你好!
非常酷的工作!你的项目让我意识到,我几年前就开始收集 Konkour 问题,但从未发布过我收集到的。
我在旧的存档中找到了一些,并将它们上传到了这个数据集仓库:https://huggingface.co/datasets/taesiri/Konkour
如果你觉得有用,请随意使用。
大型视觉语言模型(VLM)的最新进展主要集中在英语上,对其他语言的关注有限。为了弥合这一差距,我们推出了 MEENA(也称为 PersianMMMU),这是第一个旨在评估波斯 VLM 在科学、推理和人类水平理解任务上的数据集。我们的数据集包含约 7,500 个波斯语问题和 3,000 个英语问题,涵盖了推理、数学、物理、图表、表格以及波斯艺术和文学等广泛主题。MEENA 的关键特性包括:(1) 涵盖不同教育水平(从小学到高中)的多样化学科;(2) 丰富的元数据,包括难度级别和描述性答案;(3) 保持文化细微差别的原创波斯语数据;(4) 用于评估跨语言性能的双语结构;以及 (5) 一系列评估各种能力的广泛实验,包括整体性能、模型关注图像的能力以及生成幻觉的倾向。我们希望该基准能够为提升英语以外的 VLM 能力做出贡献。