⏶16
ChartMuseum: 测试大型视觉-语言模型的视觉推理能力
发表
由
Liyan Tang 提交

作者:
Liyan Tang, Grace Kim,
Xinyu Zhao,
Thom Lake,
Wenxuan Ding,
Fangcong Yin,
Prasann Singhal,
Manya Wadhwa,
Zeyu Leo Liu,
Zayne Sprague, Ramya Namuduri, Bodun Hu, Juan Diego Rodriguez,
Puyuan Peng,
Greg Durrett




摘要
图表理解对大型视觉-语言模型 (LVLMs) 提出了独特的挑战,因为它需要整合复杂的文本和视觉推理能力。然而,当前的 LVLMs 在这些技能之间表现出显著的不平衡,在难以通过文本执行的视觉推理方面存在不足。我们使用一个只能通过视觉推理解决的合成数据集进行了案例研究,结果表明随着视觉复杂性的增加,模型性能显著下降,而人类性能保持稳定。随后,我们引入了 ChartMuseum,一个新的图表问答 (QA) 基准,包含从 184 个来源的真实图表中精选的 1,162 个专家标注的问题,涵盖多种推理类型,专门用于评估复杂的视觉和文本推理能力。与之前的前沿模型表现相似且接近饱和的图表理解基准不同,我们的基准揭示了模型和人类性能之间存在的显著差距,同时有效地区分了模型能力:尽管人类达到了 93% 的准确率,但表现最好的模型 Gemini-2.5-Pro 仅达到 63.0%,而领先的开源 LVLM Qwen2.5-VL-72B-Instruct 仅达到 38.5%。此外,对于主要需要视觉推理的问题,所有模型的性能相较于文本推理为主的问题下降了 35%-55%。最后,我们的定性错误分析揭示了当前 LVLMs 在哪些特定的视觉推理类别上面临挑战。
隆重推出 ChartMuseum 🖼️,用多样化的真实图表测试复杂的视觉推理能力!
✍🏻 由 13 位计算机科学研究人员完全人工编写的问题
👀 侧重于视觉推理——很难通过文本 CoT(思维链)来表达
📉 人类达到 93% 的准确率,而 Gemini-2.5-Pro 为 63%,Qwen2.5-72B 为 38%
排行榜可在以下地址查看:https://chartmuseum-leaderboard.github.io