ChartLens:图表中的细粒度视觉归因

发表
Franck DernoncourtFranck Dernoncourt 提交
作者: Manan Suri, Puneet MathurPuneet Mathur, Nedim Lipka, Franck DernoncourtFranck Dernoncourt, Ryan A. Rossi, Dinesh Manocha

摘要

多模态大型语言模型 (MLLM) 日益增强的能力推动了图表理解等任务的进步。然而,这些模型经常出现幻觉,即生成的文本序列与提供的视觉数据相冲突。为了解决这个问题,我们引入了图表的后验视觉归因(Post-Hoc Visual Attribution for Charts),该方法识别验证给定图表相关响应的细粒度图表元素。我们提出了 ChartLens,一种新颖的图表归因算法,它使用基于分割的技术来识别图表对象,并结合 MLLM 使用标记集提示(set-of-marks prompting)进行细粒度视觉归因。此外,我们还提出了 ChartVA-Eval,这是一个包含来自金融、政策和经济学等不同领域的合成和真实世界图表的基准数据集,其特点是带有细粒度归因标注。我们的评估表明,ChartLens 将细粒度归因提高了 26-66%。
查看 arXiv 页面查看 PDF

评论

Franck DernoncourtFranck Dernoncourt
论文作者
论文提交者
此评论已隐藏。