⏶21

视频视野-文化语言：360° 视野 - 在视频理解中跨越文化、语言与领域

04月23日发表

04月28日由 Yunxin Li 提交

作者: Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang

摘要

评估多模态AI系统的视频理解能力可以有效地衡量它们的理解和推理能力。大多数视频评估基准仅限于单一语言，通常是英语，且主要包含植根于西方文化背景的视频。在本文中，我们提出了VideoVista-CulturalLingo，这是第一个旨在弥合视频理解中的文化、语言和领域差异的视频评估基准。我们的工作与现有基准的不同之处在于：1）文化多样性，融合了来自中国、北美和欧洲的文化；2）多语言性，问题以中文和英文呈现——这两种是最广泛使用的语言；3）广泛领域，视频来源于数百个人类创建的领域。VideoVista-CulturalLingo包含1389个视频和3134对问答对，我们评估了24个最近的开源或专有视频大型模型。从实验结果中，我们观察到：1）现有模型在以中国为中心的问题上表现不如以西方为中心的问题，尤其是在与中国历史相关的问题上；2）当前的开源模型在时间理解方面仍存在局限性，尤其是在事件定位任务中，最高得分仅为45.2%；3）主流模型在一般科学问题上表现出色，而开源模型在数学方面表现较弱。

查看 arXiv 页面查看 PDF

Yunxin Li

论文作者

论文提交者

链接：https://huggingface.co/datasets/Uni-MoE/VideoVista-CulturalLingo

项目网页：https://videovista-culturallingo.github.io/

Github仓库：https://github.com/HITsz-TMG/VideoVista

视频视野-文化语言：360° 视野 - 在视频理解中跨越文化、语言与领域

摘要

评论