⏶4
ChartLens:图表中的细粒度视觉归因
发表
由
Franck Dernoncourt 提交
作者: Manan Suri,
Puneet Mathur, Nedim Lipka,
Franck Dernoncourt, Ryan A. Rossi, Dinesh Manocha
摘要
多模态大型语言模型 (MLLM) 日益增强的能力推动了图表理解等任务的进步。然而,这些模型经常出现幻觉,即生成的文本序列与提供的视觉数据相冲突。为了解决这个问题,我们引入了图表的后验视觉归因(Post-Hoc Visual Attribution for Charts),该方法识别验证给定图表相关响应的细粒度图表元素。我们提出了 ChartLens,一种新颖的图表归因算法,它使用基于分割的技术来识别图表对象,并结合 MLLM 使用标记集提示(set-of-marks prompting)进行细粒度视觉归因。此外,我们还提出了 ChartVA-Eval,这是一个包含来自金融、政策和经济学等不同领域的合成和真实世界图表的基准数据集,其特点是带有细粒度归因标注。我们的评估表明,ChartLens 将细粒度归因提高了 26-66%。
评论
论文作者
论文提交者
此评论已隐藏。