⏶10
基于结构化指令的改进的图表到代码生成迭代细化
发表
由
Lai Wei 提交

作者:
Chengzhi Xu, Yuyang Wang,
Lai Wei,
Lichao Sun,
Weiran Huang

摘要
最近,多模态大型语言模型(MLLMs)由于其强大的视觉理解能力,引起了越来越多的研究关注。尽管它们在各种视觉任务上取得了令人瞩目的成果,但在图表生成代码任务上的表现仍有不足。这项任务要求 MLLMs 生成可执行代码,能够复现给定图表,这不仅需要精确的视觉理解,还需要将视觉元素准确地转换为结构化代码。直接提示 MLLMs 执行这项复杂任务通常会产生不尽人意的结果。为了解决这一挑战,我们提出了 {ChartIR},这是一种基于结构化指令的迭代细化方法。首先,我们区分了两个任务:视觉理解和代码转换。为了完成视觉理解部分,我们设计了两种类型的结构化指令:描述和差异。描述指令捕捉了参考图表的视觉元素,而差异指令则刻画了参考图表和生成图表之间的差异。这些指令有效地将视觉特征转换为语言表示,从而促进了随后的代码转换过程。其次,我们将整体图表生成流程分解为两个阶段:初始代码生成和迭代细化,从而实现了对最终输出的逐步改进。实验结果表明,与其它方法相比,我们的方法在开源模型 Qwen2-VL 和闭源模型 GPT-4o 上均取得了更优越的性能。
提交论文