ExpVid: 实验视频理解与推理基准

发表
Yicheng XuYicheng Xu 提交
作者: Yicheng XuYicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang

摘要

AI 生成总结
ExpVid,一个用于评估多模态大型语言模型在科学实验视频方面的新基准,突出了在细粒度感知、程序理解和科学推理方面的不足。
多模态大语言模型 (MLLMs) 有望通过解读复杂的实验程序来加速科学发现。然而, 它们真正的能力知之甚少,因为现有的基准测试未能充分考虑真实实验室工作的精细和长时 间特性,尤其是在湿实验室环境中。为了弥合这一差距,我们提出了 ExpVid,这是第一个旨在 系统评估 MLLMs 在科学实验视频上的基准。ExpVid 从同行评审的视频出版物中精选而成, 具有一个模仿科学过程的新的三级任务层次结构:(1) 对工具、材料和动作的精细感知;(2) 对 步骤顺序和完整性的程序理解;以及 (3) 将整个实验与其发表的结论联系起来的科学推理。 我们以视觉为中心的标注流程,结合自动化生成和多学科专家验证,确保任务需要视觉基础。 我们在 ExpVid 上评估了 19 个领先的 MLLMs,发现尽管它们在粗粒度识别方面表现出色, 但在区分精细细节、随时间跟踪状态变化以及将实验程序与科学结果联系起来方面却遇到困难。 我们的结果揭示了专有模型和开源模型在性能上的显著差距,尤其是在高阶推理方面。 ExpVid 不仅提供了一个诊断工具,还为开发能够成为科学实验中值得信赖的伙伴的 MLLMs 绘制了路线图。
查看 arXiv 页面查看 PDF

评论