⏶5
ChartCap:缓解密集图表标题的幻觉
发表
由
Jaewoo Ahn 提交
作者: Junyoung Lim,
Jaewoo Ahn, Gunhee Kim
摘要
为图表生成准确、信息丰富且无幻觉的标题对于视觉语言模型来说仍然具有挑战性,这主要是由于缺乏大规模、高质量的真实世界图表数据集。然而,现有真实世界图表数据集存在包含无法从图表中推断出的无关信息,并且未能充分捕获结构元素和关键见解的问题。因此,我们引入了 ChartCap,一个包含 56.5 万张真实世界图表图像的大规模数据集,并配有特定类型、密集的标题,这些标题排除了无关信息,并详细突出了结构元素和关键见解。为了构建 ChartCap,我们设计了一个四阶段流程,仅使用图表中可识别的数据生成标题,并采用基于循环一致性的人工验证,这在不牺牲准确性的情况下加速了质量控制。此外,我们提出了一种新颖的度量标准——视觉一致性分数,它通过测量从标题重新生成的图表与原始图表之间的相似性来评估标题质量,独立于参考标题。大量的实验证实,在 ChartCap 上微调的模型始终能生成更准确、信息更丰富且幻觉更少的标题,超越了开源和专有模型,甚至超越了人工标注的标题。
ChartCap 数据集:https://huggingface.co/datasets/junyoung-00/ChartCap
Phi-3.5-vision-instruct-ChartCap (4B):https://huggingface.co/junyoung-00/Phi-3.5-vision-instruct-ChartCap
网页:https://junyoung-00.github.io/ChartCap/