视频视野-文化语言:360° 视野 - 在视频理解中跨越文化、语言与领域

发表
Yunxin LiYunxin Li 提交
作者: YuXinyu Chen, Yunxin LiYunxin Li, Haoyuan ShiHaoyuan Shi, Baotian Hu, Wenhan LuoWenhan Luo, Yaowei Wang, Min Zhang

摘要

评估多模态AI系统的视频理解能力可以有效地衡量它们的理解和推理能力。大多数视频评估基准仅限于单一语言,通常是英语,且主要包含植根于西方文化背景的视频。在本文中,我们提出了VideoVista-CulturalLingo,这是第一个旨在弥合视频理解中的文化、语言和领域差异的视频评估基准。我们的工作与现有基准的不同之处在于:1)文化多样性,融合了来自中国、北美和欧洲的文化;2)多语言性,问题以中文和英文呈现——这两种是最广泛使用的语言;3)广泛领域,视频来源于数百个人类创建的领域。VideoVista-CulturalLingo包含1389个视频和3134对问答对,我们评估了24个最近的开源或专有视频大型模型。从实验结果中,我们观察到:1)现有模型在以中国为中心的问题上表现不如以西方为中心的问题,尤其是在与中国历史相关的问题上;2)当前的开源模型在时间理解方面仍存在局限性,尤其是在事件定位任务中,最高得分仅为45.2%;3)主流模型在一般科学问题上表现出色,而开源模型在数学方面表现较弱。
查看 arXiv 页面查看 PDF

评论