⏶4

ChartLens：图表中的细粒度视觉归因

05月25日发表

05月30日由 Franck Dernoncourt 提交

作者: Manan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Dinesh Manocha

摘要

多模态大型语言模型 (MLLM) 日益增强的能力推动了图表理解等任务的进步。然而，这些模型经常出现幻觉，即生成的文本序列与提供的视觉数据相冲突。为了解决这个问题，我们引入了图表的后验视觉归因（Post-Hoc Visual Attribution for Charts），该方法识别验证给定图表相关响应的细粒度图表元素。我们提出了 ChartLens，一种新颖的图表归因算法，它使用基于分割的技术来识别图表对象，并结合 MLLM 使用标记集提示（set-of-marks prompting）进行细粒度视觉归因。此外，我们还提出了 ChartVA-Eval，这是一个包含来自金融、政策和经济学等不同领域的合成和真实世界图表的基准数据集，其特点是带有细粒度归因标注。我们的评估表明，ChartLens 将细粒度归因提高了 26-66%。

查看 arXiv 页面查看 PDF

Franck Dernoncourt

论文作者

论文提交者

此评论已隐藏。