⏶21
视频视野-文化语言:360° 视野 - 在视频理解中跨越文化、语言与领域
发表
由
Yunxin Li 提交
作者:
Xinyu Chen,
Yunxin Li,
Haoyuan Shi, Baotian Hu,
Wenhan Luo, Yaowei Wang, Min Zhang
摘要
评估多模态AI系统的视频理解能力可以有效地衡量它们的理解和推理能力。大多数视频评估基准仅限于单一语言,通常是英语,且主要包含植根于西方文化背景的视频。在本文中,我们提出了VideoVista-CulturalLingo,这是第一个旨在弥合视频理解中的文化、语言和领域差异的视频评估基准。我们的工作与现有基准的不同之处在于:1)文化多样性,融合了来自中国、北美和欧洲的文化;2)多语言性,问题以中文和英文呈现——这两种是最广泛使用的语言;3)广泛领域,视频来源于数百个人类创建的领域。VideoVista-CulturalLingo包含1389个视频和3134对问答对,我们评估了24个最近的开源或专有视频大型模型。从实验结果中,我们观察到:1)现有模型在以中国为中心的问题上表现不如以西方为中心的问题,尤其是在与中国历史相关的问题上;2)当前的开源模型在时间理解方面仍存在局限性,尤其是在事件定位任务中,最高得分仅为45.2%;3)主流模型在一般科学问题上表现出色,而开源模型在数学方面表现较弱。
链接:https://huggingface.co/datasets/Uni-MoE/VideoVista-CulturalLingo
项目网页:https://videovista-culturallingo.github.io/
Github仓库:https://github.com/HITsz-TMG/VideoVista