SciVer: 评估多模态科学论断验证中的基础模型

发表
Yilun ZhaoYilun Zhao 提交
作者: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun ZhaoYilun Zhao

摘要

我们引入了 SciVer,这是第一个专门为评估基础模型在多模态科学语境中验证声明能力而设计的基准。SciVer 包含 3,000 个专家标注的示例,覆盖 1,113 篇科学论文,包含四个子集,每个子集代表多模态科学声明验证中一种常见的推理类型。为了实现细粒度评估,每个示例都包含专家标注的支持证据。我们评估了 21 种最先进的多模态基础模型的性能,包括 o4-mini、Gemini-2.5-Flash、Llama-3.2-Vision 和 Qwen2.5-VL。我们的实验揭示了这些模型与人类专家在 SciVer 上存在显著的性能差距。通过对检索增强生成 (RAG) 的深入分析以及人工进行的错误评估,我们识别出当前开源模型的关键局限性,为提升模型在多模态科学文献任务中的理解和推理能力提供了重要见解。
查看 arXiv 页面查看 PDF

评论

Yilun ZhaoYilun Zhao
论文作者
论文提交者

在这篇 ACL 2025 论文中,我们介绍了 SciVer,这是第一个专门设计用于评估基础模型在多模态科学背景下验证主张能力的基准测试。