⏶33
MORSE-500: 一个程序化可控的视频基准,用于压力测试多模态推理
发表
由
Xiyao Wang 提交
作者:
Zikui Cai, Andrew Wang,
Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu,
Neel Jay, Sungbin Oh,
Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang
摘要
尽管视觉语言模型(VLM)取得了快速进展,但当前用于多模态推理的基准在三个关键维度上仍存在不足。首先,它们过度依赖静态图像,未能捕捉真实世界环境的时序复杂性。其次,它们狭隘地侧重于数学问题解决,忽视了鲁棒多模态智能所需的更广泛推理技能——包括抽象、物理、规划、空间和时序能力。第三,许多基准很快就会饱和,为诊断故障模式或衡量持续进展提供的余地有限。我们引入了MORSE-500(多模态推理压力测试环境),这是一个视频基准,由500个完全脚本化的片段组成,其中嵌入了涵盖六个互补推理类别的问题。每个实例都通过确定性Python脚本(通过Manim、Matplotlib、MoviePy)、生成式视频模型和精心策划的真实素材进行程序化生成。这种脚本驱动的设计允许对视觉复杂性、干扰物密度和时间动态进行细粒度控制——使得随着模型的改进,难度可以系统地扩展。与一旦饱和就会过时的静态基准不同,MORSE-500旨在发展:其可控的生成管道支持创建任意具有挑战性的新实例,使其非常适合对下一代模型进行压力测试。对包括当时最强大的 Gemini 2.5 Pro 和 OpenAI o3,以及其他强大的开源模型在内的最先进系统进行的初步实验表明,所有类别都存在显著的性能差距,尤其在抽象和规划任务中表现出更大的不足。我们发布了完整数据集、生成脚本和评估工具,以支持透明、可复现和前瞻性的多模态推理研究。
(主页: https://morse-500.github.io/)