CSVQA: 一个用于评估VLMs STEM推理能力的中文多模态基准

发表
Peiyu WangPeiyu Wang 提交
作者: Ai Jian, weijie qiuWeijie Qiu, wangxiaokunXiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen WeiYichen Wei, Yi Peng, Xuchen SongXuchen Song

摘要

视觉语言模型(VLMs)在多模态理解方面取得了显著进展,但其科学推理能力仍未得到充分评估。当前的多模态基准测试主要评估通用图像理解或文本驱动推理,缺乏需要将领域特定知识与视觉证据分析相结合的真实科学背景。为了填补这一空白,我们提出了CSVQA,一个专门为通过领域基础视觉问答来评估科学推理而设计的诊断性多模态基准。我们的基准包含1,378个精心构建的问答对,涵盖了不同的STEM学科,每个问题都要求领域知识、视觉证据的整合和高阶推理。与之前的多模态基准测试相比,CSVQA更侧重于真实世界的科学内容和复杂推理。我们还提出了一种严格的评估协议,以系统地评估模型预测是否基于精心策划的解释并通过有效的中间推理步骤得到证实。我们对15个VLM在该基准上的综合评估揭示了显著的性能差异,即使是排名最高的专有模型也仅达到了49.6%的准确率。这一经验证据强调了提高VLM科学推理能力的迫切需求。我们的CSVQA已在https://huggingface.co/datasets/Skywork/CSVQA发布。
查看 arXiv 页面查看 PDF
CSVQA: 一个用于评估VLMs STEM推理能力的中文多模态基准

评论

Peiyu WangPeiyu Wang
论文提交者

CSVQA 是一个多模态基准测试,专门用于评估视觉-语言模型 (VLM) 的科学推理能力


🔬 聚焦 STEM 领域

CSVQA 包含 1,378 个精心策划的视觉问答对,涵盖 STEM(科学、技术、工程、数学)学科:

  • 物理学

  • 化学

  • 生物学

  • 数学


🌍 真实世界科学语境

与通用多模态基准测试不同,CSVQA 强调:

  • 领域特定的科学知识

  • 与视觉证据的结合


🧠 高阶推理

任务超越了表面理解,需要:

  • 多步推理

  • 基于科学原理的逻辑推断


🧾 基于解释的评估

每个问答对都配有:

  • 精心策划的推理链

  • 用于评估模型答案是否逻辑上和事实上有依据


📉 对 SOTA 模型的挑战

15 个 VLM 的评估显示:

  • 即使是最佳的专有模型也只取得了 49.6% 的准确率

  • 证明了 VLM 在科学推理方面的当前局限性

JiangBo PeiJiangBo Pei

这篇论文不是我的。我也想知道发生了什么。

Peiyu WangPeiyu Wang
论文提交者

我不知道,伙计