⏶21
ChartQAPro: 一个更多样化和更具挑战性的图表问答基准
发表
由
Ahmed Masry 提交

作者:
Ahmed Masry,
Mohammed Saidul Islam, Mahir Ahmed, Aayush Bajaj, Firoz Kabir, Aaryaman Kartha, Md Tahmid Rahman Laskar, Mizanur Rahman, Shadikur Rahman, Mehrad Shahmohammadi, Megh Thakkar, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty


摘要
图表无处不在,因为人们经常使用它们来分析数据、回答问题和发现关键见解。然而,使用图表执行复杂的分析任务需要大量的感知和认知努力。图表问答(CQA)系统通过使模型能够解释和推理数据的视觉表示来自动化此过程。然而,像 ChartQA 这样的现有基准缺乏真实世界的多样性,并且最近显示出现代大型视觉语言模型(LVLMs)的性能饱和。为了解决这些限制,我们引入了 ChartQAPro,一个新的基准,其中包括来自 157 个不同来源的 1,341 个图表,涵盖各种图表类型,包括信息图表和仪表板,并包含 1,948 个各种类型的问题,例如多项选择题、会话式问题、假设性问题和无法回答的问题,以更好地反映真实世界的挑战。我们对 21 个模型的评估显示,LVLM 在 ChartQAPro 上的性能大幅下降;例如,Claude Sonnet 3.5 在 ChartQA 上的得分为 90.5%,但在 ChartQAPro 上仅为 55.81%,这突显了图表推理的复杂性。我们用详细的错误分析和消融研究来补充我们的发现,识别了在图表理解和推理方面推进 LVLM 的关键挑战和机遇。我们在 https://github.com/vis-nlp/ChartQAPro 发布 ChartQAPro。
🤗 数据集: https://huggingface.co/datasets/ahmed-masry/ChartQAPro
🖥️ 代码: https://github.com/vis-nlp/ChartQAPro