ChartAgent:用于复杂图表问答中视觉基础推理的多模态代理

发表
Rachneet KaurRachneet Kaur 提交
作者: Rachneet KaurRachneet Kaur, Nishan Srishankar, Zhen Zeng, Sumitra Ganesh, Manuela Veloso

摘要

AI 生成总结
ChartAgent 是一个新颖的代理框架,直接在图表中执行视觉推理,通过迭代分解查询和使用专门的视觉操作,在 ChartBench 和 ChartX 基准测试中达到了最先进的准确率。
最近的多模态 LLM 在基于图表的视觉问答方面表现出潜力,但它们在未标记图表上的性能急剧下降,这些图表需要精确的视觉解释,而不是依赖于文本捷径。为了解决这个问题,我们引入了 ChartAgent,这是一个新颖的代理框架,可以直接在图表的空间域内执行视觉推理。与文本链式思维推理不同,ChartAgent 迭代地将查询分解为视觉子任务,并通过专用操作(如绘制注释、裁剪区域(例如,分割饼图、隔离条形图)以及定位轴)来积极地操纵和交互图表图像,使用一套图表特定的视觉工具来完成每个子任务。这种迭代推理过程密切模仿了人类理解图表的认知策略。ChartAgent 在 ChartBench 和 ChartX 基准测试中取得了最先进的准确性,在整体上比先前的方法提高了高达 16.07% 的绝对增量,在未标记的、数值密集型查询上提高了 17.31%。此外,我们的分析表明,ChartAgent (a) 在各种图表类型中都有效,(b) 在不同的视觉和推理复杂度级别上都取得了最高分数,并且 (c) 作为一个即插即用框架,可以提升各种底层 LLM 的性能。我们的工作首次使用工具增强的多模态代理来演示用于图表理解的视觉基础推理。
查看 arXiv 页面查看 PDF

评论

Rachneet KaurRachneet Kaur
论文作者
论文提交者

ChartAgent 是一个新颖的代理框架,它直接在图表中执行视觉推理,通过迭代分解查询和使用专门的视觉动作,在 ChartBench 和 ChartX 基准测试上实现了最先进的准确度。