多模态基础模型能理解示意图吗?一项关于科学论文信息检索式问答的实证研究

发表
Yilun ZhaoYilun Zhao 提交
作者: Yilun ZhaoYilun Zhao, Chengye Wang, Chuhan Li, Arman Cohan

摘要

本文介绍了MISS-QA,这是第一个专门设计用于评估模型解释科学文献中示意图能力的基准。MISS-QA包含来自465篇科学论文的1,500个专家标注示例。在此基准中,模型需要解释说明研究概述的示意图,并根据论文的更广泛上下文回答相应的信息查询问题。我们评估了18个前沿多模态基础模型的性能,包括o4-mini、Gemini-2.5-Flash和Qwen2.5-VL。我们发现这些模型与MISS-QA上的人类专家之间存在显著的性能差距。我们对模型在无法回答问题上的表现分析以及详细的错误分析进一步突出了当前模型的优势和局限性,为增强模型对多模态科学文献的理解提供了关键见解。
查看 arXiv 页面查看 PDF

评论

Yilun ZhaoYilun Zhao
论文作者
论文提交者

本文介绍了MISS-QA,这是第一个专门设计用于评估模型解释科学文献中示意图能力的基准。MISS-QA包含来自465篇科学论文的1,500个专家标注示例。