ChartM^3:一个多阶段代码驱动的流水线,用于在图表理解中构建多维多步的视觉推理数据

发表
taesiritaesiri 提交
作者: Duo Xu, Hao Cheng, Xin Lin, Zhen Xie, Hao Wang

摘要

AI 生成总结
一个使用检索增强生成和思维链策略的自动化管道创建了一个多样化的数据集,以增强复杂图表理解任务中的推理能力。
复杂的图表理解任务要求多模态大型语言模型 (MLLMs) 具备高级视觉识别和推理能力。然而,当前研究对现实世界应用中普遍存在的复杂图表场景和计算密集型推理任务的覆盖有限。本研究提出了一种自动化多阶段代码驱动的流水线,用于系统地生成视觉推理数据集以解决这些限制。该流水线集成了检索增强生成 (RAG) 以检索专业的图表模板,并采用思维链 (CoT) 策略生成模拟真实数据分布的推理代码,从而驱动图表渲染和问题相关的统计计算。通过基于模型的评估,该流水线增强了图表多样性和数据质量。利用该框架,我们构建了 ChartM^3,这是一个多维度、多步骤的数据集,包含 3.8 万张图表和 14.2 万个问答对用于训练,以及 2,871 个高质量评估样本,以实现实际性能评估。监督微调 (SFT) 和强化学习 (RL) 实验表明,我们的数据集显著提高了推理能力和跨领域泛化性能,使小型模型能够在复杂图表理解中实现与大型模型相当的性能。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

复杂的图表理解任务要求多模态大语言模型 (MLLM) 具备先进的视觉识别和推理能力。然而,当前研究对现实应用中普遍存在的复杂图表场景和计算密集型推理任务的覆盖有限。本研究提出了一种自动化的多阶段代码驱动管道,用于系统地生成视觉推理数据集以解决这些限制。该管道集成了检索增强生成 (RAG) 以检索专业的图表模板,并采用思维链 (CoT) 策略生成模拟真实数据分布的推理代码,从而驱动图表渲染和问题相关的统计计算。通过基于模型的评估,该管道增强了图表多样性和数据质量。使用此框架,我们构建了 ChartM3,一个多维度、多步骤的数据集,包含 38K 图表和 142K 问答对用于训练,以及 2,871 个高质量评估样本以实现实际性能评估。监督微调 (SFT) 和强化学习 (RL) 实验表明,我们的数据集显著提高了推理能力和跨领域泛化性能,使较小的模型能够在复杂图表理解方面达到与大规模模型相当的性能。