⏶16

ChartMuseum: 测试大型视觉-语言模型的视觉推理能力

05月19日发表

05月20日由 Liyan Tang 提交

作者: Liyan Tang, Grace Kim, Xinyu (Lucy) Zhao Xinyu Zhao, Thom Lake, Wenxuan Ding, Fangcong Yin, Prasann Singhal, Manya Wadhwa, Zeyu Leo Liu, Zayne Sprague, Ramya Namuduri, Bodun Hu, Juan Diego Rodriguez, Puyuan Peng, Greg Durrett

摘要

图表理解对大型视觉-语言模型 (LVLMs) 提出了独特的挑战，因为它需要整合复杂的文本和视觉推理能力。然而，当前的 LVLMs 在这些技能之间表现出显著的不平衡，在难以通过文本执行的视觉推理方面存在不足。我们使用一个只能通过视觉推理解决的合成数据集进行了案例研究，结果表明随着视觉复杂性的增加，模型性能显著下降，而人类性能保持稳定。随后，我们引入了 ChartMuseum，一个新的图表问答 (QA) 基准，包含从 184 个来源的真实图表中精选的 1,162 个专家标注的问题，涵盖多种推理类型，专门用于评估复杂的视觉和文本推理能力。与之前的前沿模型表现相似且接近饱和的图表理解基准不同，我们的基准揭示了模型和人类性能之间存在的显著差距，同时有效地区分了模型能力：尽管人类达到了 93% 的准确率，但表现最好的模型 Gemini-2.5-Pro 仅达到 63.0%，而领先的开源 LVLM Qwen2.5-VL-72B-Instruct 仅达到 38.5%。此外，对于主要需要视觉推理的问题，所有模型的性能相较于文本推理为主的问题下降了 35%-55%。最后，我们的定性错误分析揭示了当前 LVLMs 在哪些特定的视觉推理类别上面临挑战。

查看 arXiv 页面查看 PDF

Liyan Tang

论文作者

论文提交者

隆重推出 ChartMuseum 🖼️，用多样化的真实图表测试复杂的视觉推理能力！

✍🏻 由 13 位计算机科学研究人员完全人工编写的问题

👀 侧重于视觉推理——很难通过文本 CoT（思维链）来表达

📉 人类达到 93% 的准确率，而 Gemini-2.5-Pro 为 63%，Qwen2.5-72B 为 38%

排行榜可在以下地址查看：https://chartmuseum-leaderboard.github.io

Liyan Tang

论文作者

论文提交者

现有图表问答基准存在局限性：

❌ 缺乏真实世界的图表来源

❌ 问题是在 LLM 参与下创建的

❌ 模型性能饱和/相似

❌ 大多数问题可以通过文本型 LLM 回答，只需提取图表中的文本

ChartMuseum：

✅ 184 个图表来源

✅ 完全由人工编写的问题

✅ 模型性能有明显区分

✅ 大多数问题依赖于视觉推理，这很难通过文本来描述

ChartMuseum: 测试大型视觉-语言模型的视觉推理能力

摘要

评论