⏶44
MathCoder-VL:连接视觉与代码以增强多模态数学推理
发表
由
WangKe 提交
作者: Ke Wang, Junting Pan, Linda Wei,
Aojun Zhou, Weikang Shi, Zimu Lu,
Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
摘要
自然语言图像-标题数据集广泛用于训练大型多模态模型,但它们主要关注自然场景,忽视了对解决问题至关重要的数学图表的复杂细节,从而阻碍了当前 LMM 在多模态数学推理方面的进展。为此,我们提出利用代码作为跨模态对齐的监督,因为代码本质上编码了生成相应图表所需的所有信息,在两种模态之间建立了精确的连接。具体而言,我们通过模型在环方法共同开发了我们的图像到代码模型和数据集,产生了图像到代码模型 FigCodifier 和迄今为止最大的图像-代码数据集 ImgCode-8.6M。此外,我们利用 FigCodifier 合成新颖的数学图表,然后构建了一个高质量的多模态数学指令微调数据集 MM-MathInstruct-3M。最后,我们提出了 MathCoder-VL,该模型使用 ImgCode-8.6M 进行跨模态对齐训练,随后在 MM-MathInstruct-3M 上进行微调以解决多模态数学问题。我们的模型在所有六个指标上均达到了新的开源最先进水平(SOTA)。值得注意的是,它在 MathVista 的几何问题解决子集上超越了 GPT-4o 和 Claude 3.5 Sonnet,分别取得了 8.9% 和 9.2% 的提升。数据集和模型将发布在 https://github.com/mathllm/MathCoder。
[2025.05.16] 🤗 MathCoder-VL-2B、MathCoder-VL-8B 和 FigCodifier-8B 现已发布!🔥🔥🔥
[2025.05.16] 我们的 MathCoder-VL 已被 ACL 2025 Findings 接收。🔥🔥🔥