⏶22
VideoMathQA:通过视频中的多模态理解基准测试数学推理
发表
由
Hanoona Rasheed 提交

作者: Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan
摘要
在真实视频场景中进行数学推理,与在静态图像或文本中相比,带来了根本性的不同挑战。它需要解释细粒度的视觉信息,准确阅读手写或数字文本,并整合口头提示,这些信息往往非线性地分散在时间上。在这种多模态背景下,成功不仅取决于感知,还取决于从丰富而嘈杂的内容流中选择性地识别和整合正确的上下文细节。为此,我们引入了 VideoMathQA,一个旨在评估模型是否能对视频执行这种时间扩展的跨模态推理的基准。该基准涵盖 10 个不同的数学领域,视频时长从 10 秒到 1 小时以上不等。它要求模型解释结构化的视觉内容,理解教学叙述,并联合地将概念基于视觉、音频和文本模态。我们聘请了研究生级别的专家来确保高质量,总共进行了 920 多个工时的标注。为了反映真实世界场景,问题围绕三个核心推理挑战设计:直接问题解决,答案基于呈现的问题;概念迁移,需要将学习到的方法应用于新问题;以及深度教学理解,涉及对扩展解释和部分已完成解决方案的多步推理。每个问题都包含多步推理标注,从而能够对模型能力进行细粒度诊断。通过此基准,我们强调了现有方法的局限性,并为模型建立了一个系统评估框架,这些模型必须在时间扩展和模态丰富的数学问题设置中进行推理,而不仅仅是感知。我们的基准和评估代码可在:https://mbzuai-oryx.github.io/VideoMathQA 获得。
VideoMathQA 是一个旨在评估真实世界教育视频中数学推理的基准。它要求模型跨时间解释和整合来自视觉、音频和文本三种模态的信息。该基准解决了“多模态大海捞针”问题,其中关键信息稀疏并分散在视频的不同模态和时间点。
🌐 项目网站:https://mbzuai-oryx.github.io/VideoMathQA
🤗 数据集访问:https://huggingface.co/datasets/MBZUAI/VideoMathQA
🏅 排行榜(推理):https://hanoonar.github.io/VideoMathQA/#leaderboard-2
🏅 排行榜(直接):https://hanoonar.github.io/VideoMathQA/#leaderboard
📂 GitHub 仓库:https://github.com/mbzuai-oryx/VideoMathQA