CodePlot-CoT:通过代码驱动图像进行思考的数学视觉推理

发表
Rongyao FangRongyao Fang 提交
作者: Duan ChengqiChengqi Duan, Kaiyue SunKaiyue Sun, Rongyao Fang, Manyuan Zhang, Yan Feng, Ying Luo, Yufang Liu, WangKeKe Wang, Peng Pei, Xunliang Cai, Hongsheng Li, Yi Ma, Xihui LiuXihui Liu

摘要

AI 生成总结
CodePlot-CoT是一个代码驱动的思维链模型,通过生成文本和可执行的绘图代码来解决需要视觉辅助的问题,从而增强了多模态数学推理能力。
大型语言模型(LLMs)和视觉语言模型(VLMs)的最新进展在数学推理方面取得了显著进步,但它们在需要视觉辅助的问题上仍然面临着关键瓶颈,例如绘制辅助线或绘制函数来解决问题。大多数 LLMs 和 VLMs 仅限于纯文本推理链,而能够生成交错文本和图像的多模态统一模型缺乏此类任务所需的精度和可控性。为了解决这个问题,我们提出了 CodePlot-CoT,一种用于数学中“图像思考”的代码驱动的思维链(Chain-of-Thought)范式。我们的方法利用 VLM 生成文本推理以及可执行的绘图代码,然后将这些代码渲染成“视觉思考”的图像,以解决数学问题。为了实现这一点,我们首先构建了 Math-VR,这是第一个大规模、双语的、包含视觉推理的数学问题数据集和基准,包含 178K 个样本。其次,为了创建高质量的训练数据,我们开发了一种最先进的图像到代码转换器,专门用于将复杂的数学图形解析成代码。最后,利用这些训练数据,我们训练了 CodePlot-CoT 模型来解决数学问题。实验结果表明,我们的模型在新基准上的性能提升高达 21%,完全验证了我们提出的代码驱动推理范式的有效性。我们的工作为多模态数学推理开辟了一个新方向,并为社区提供了第一个大规模数据集、全面的基准和强大的解决方案。为了促进未来的研究,我们将数据集、代码和预训练模型公开提供:https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT
查看 arXiv 页面查看 PDF

评论

Rongyao FangRongyao Fang
论文提交者

关于 Math-VR 基准和 CodePlot-CoT:通过代码驱动图像进行数学视觉推理