MORSE-500: 一个程序化可控的视频基准,用于压力测试多模态推理

发表
Xiyao WangXiyao Wang 提交
作者: Zikui CaiZikui Cai, Andrew Wang, Anirudh SatheeshAnirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel JayNeel Jay, Sungbin Oh, Xiyao WangXiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang

摘要

尽管视觉语言模型(VLM)取得了快速进展,但当前用于多模态推理的基准在三个关键维度上仍存在不足。首先,它们过度依赖静态图像,未能捕捉真实世界环境的时序复杂性。其次,它们狭隘地侧重于数学问题解决,忽视了鲁棒多模态智能所需的更广泛推理技能——包括抽象、物理、规划、空间和时序能力。第三,许多基准很快就会饱和,为诊断故障模式或衡量持续进展提供的余地有限。我们引入了MORSE-500(多模态推理压力测试环境),这是一个视频基准,由500个完全脚本化的片段组成,其中嵌入了涵盖六个互补推理类别的问题。每个实例都通过确定性Python脚本(通过Manim、Matplotlib、MoviePy)、生成式视频模型和精心策划的真实素材进行程序化生成。这种脚本驱动的设计允许对视觉复杂性、干扰物密度和时间动态进行细粒度控制——使得随着模型的改进,难度可以系统地扩展。与一旦饱和就会过时的静态基准不同,MORSE-500旨在发展:其可控的生成管道支持创建任意具有挑战性的新实例,使其非常适合对下一代模型进行压力测试。对包括当时最强大的 Gemini 2.5 Pro 和 OpenAI o3,以及其他强大的开源模型在内的最先进系统进行的初步实验表明,所有类别都存在显著的性能差距,尤其在抽象和规划任务中表现出更大的不足。我们发布了完整数据集、生成脚本和评估工具,以支持透明、可复现和前瞻性的多模态推理研究。
查看 arXiv 页面查看 PDF

评论

Xiyao WangXiyao Wang
论文作者
论文提交者

(主页: https://morse-500.github.io/)