MEENA(波斯多模态多语言评估):面向N级评估的多模态多语言教育考试

发表
Omid GhahroodiOmid Ghahroodi 提交
作者: Omid GhahroodiOmid Ghahroodi, Arshia HemmatArshia Hemmat, Marzia Nouri, Mohammad Hadi hosseiniSeyed Mohammad Hadi Hosseini, Doratossadat Dastgheib, Mohammad Vali Sanian, Alireza SahebiAlireza Sahebi, Reihaneh Zohrabi, Mohammad Hossein Rohban, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah

摘要

大型视觉语言模型(VLM)的最新进展主要集中在英语上,对其他语言的关注有限。为了弥补这一差距,我们引入了MEENA(也称为PersianMMMU),这是第一个旨在评估波斯VLM在科学、推理和人类水平理解任务上的数据集。我们的数据集包含约7,500个波斯语问题和3,000个英语问题,涵盖了广泛的主题,如推理、数学、物理、图表、图形以及波斯艺术和文学。MEENA的主要特点包括:(1)涵盖从小学到高中不同教育水平的多样化学科;(2)丰富的元数据,包括难度级别和描述性答案;(3)保留文化细微差别的原创波斯语数据;(4)用于评估跨语言性能的双语结构;(5)一系列多样的实验,评估各种能力,包括整体性能、模型关注图像的能力以及生成幻觉的倾向。我们希望这个基准能够促进VLM能力超越英语。
查看 arXiv 页面查看 PDF
MEENA(波斯多模态多语言评估):面向N级评估的多模态多语言教育考试

评论

Omid GhahroodiOmid Ghahroodi
论文作者
论文提交者

大型视觉语言模型(VLM)的最新进展主要集中在英语上,对其他语言的关注有限。为了弥合这一差距,我们推出了 MEENA(也称为 PersianMMMU),这是第一个旨在评估波斯 VLM 在科学、推理和人类水平理解任务上的数据集。我们的数据集包含约 7,500 个波斯语问题和 3,000 个英语问题,涵盖了推理、数学、物理、图表、表格以及波斯艺术和文学等广泛主题。MEENA 的关键特性包括:(1) 涵盖不同教育水平(从小学到高中)的多样化学科;(2) 丰富的元数据,包括难度级别和描述性答案;(3) 保持文化细微差别的原创波斯语数据;(4) 用于评估跨语言性能的双语结构;以及 (5) 一系列评估各种能力的广泛实验,包括整体性能、模型关注图像的能力以及生成幻觉的倾向。我们希望该基准能够为提升英语以外的 VLM 能力做出贡献。

taesiritaesiri

你好!

非常酷的工作!你的项目让我意识到,我几年前就开始收集 Konkour 问题,但从未发布过我收集到的。

我在旧的存档中找到了一些,并将它们上传到了这个数据集仓库:https://huggingface.co/datasets/taesiri/Konkour

如果你觉得有用,请随意使用。