ViExam:视觉语言模型在越南多模态考试题目上是否优于人类?

发表
An VoAn Vo 提交
作者: Tường VyVy Tuong Dang, An VoAn Vo, Quang Tau, Duc Dm, Daeyoung Kim

摘要

视觉语言模型(VLM)在英语多模态任务上展现出卓越的能力,但它们在具有真实多模态教育内容的低资源语言上的表现却鲜为人知。在这项工作中,我们测试了 VLM 在越南语教育评估上的表现,并研究了主要在英语数据上训练的 VLM 是否能够处理真实的跨语言多模态推理。我们的工作通过提出 ViExam(一个包含 2,548 个多模态问题的基准测试)首次全面评估了 VLM 在多模态越南语考试上的能力。我们发现,在包括数学、物理、化学、生物、地理、驾驶考试和智商测试在内的 7 个学术领域中,最先进的 VLM 的平均准确率仅为 57.74%,而开源模型的平均准确率为 27.70%。大多数 VLM 的表现都低于普通人类考生(66.54%),只有思考型 VLM o3(74.07%)超过了人类平均水平,但仍远低于人类最佳表现(99.60%)。使用英语指令进行跨语言提示,同时保持越南语内容,并不能提高性能,反而使最先进 VLM 的准确率降低了 1 个百分点。人类在循环协作中可以将 VLM 的性能提高 5 个百分点。代码和数据可在以下网址获取:https://vi-exam.github.io
查看 arXiv 页面查看 PDF

评论

An VoAn Vo
论文作者
论文提交者

项目主页:https://vi-exam.github.io