⏶22
MathCanvas:用于多模态数学推理的内在视觉思维链
发表
由
taesiri 提交

作者: Weikang Shi, Aldrich Yu, Rongyao Fang, Houxing Ren,
Ke Wang, Aojun Zhou, Changyao Tian, Xinyu Fu, Yuxuan Hu, Zimu Lu, Linjiang Huang, Si Liu, Rui Liu, Hongsheng Li
摘要
AI 生成总结
MathCanvas 通过在图表生成上进行预训练,并在视觉文本推理上进行微调,增强了大型多模态模型在数学方面的视觉链式思考能力,在数学基准上取得了显著的改进。虽然大型语言模型(LLM)在文本推理方面表现出色,但它们在本质上依赖于视觉辅助的几何等数学领域却举步维艰。现有的视觉链式思维(VCoT)方法常常受到外部工具的限制,或者无法生成复杂问题解决所需的、高保真度的、战略性定时的图表。为了弥合这一差距,我们引入了 MathCanvas,一个旨在赋予统一的大型多模态模型(LMM)数学领域固有 VCoT 能力的综合框架。我们的方法包含两个阶段。首先,视觉操作阶段在由 1000 万张字幕到图表对(MathCanvas-Imagen)和 520 万个分步编辑轨迹(MathCanvas-Edit)组成的 1520 万对新颖语料库上预训练模型,以掌握图表生成和编辑。其次,战略视觉辅助推理阶段在 MathCanvas-Instruct 上对模型进行微调,这是一个包含 21.9 万个示例的新数据集,包含交织的视觉-文本推理路径,教导模型何时以及如何利用视觉辅助。为了促进严格评估,我们引入了 MathCanvas-Bench,一个包含 3000 个问题、需要模型生成交织视觉-文本解决方案的挑战性基准。在我们的框架下训练的 BAGEL-Canvas 模型,在 MathCanvas-Bench 上取得了比强大的 LMM 基线高 86% 的相对改进,并在其他公共数学基准上表现出出色的泛化能力。我们的工作提供了一个完整的工具包——框架、数据集和基准——来解锁 LMM 中复杂、类似人类的视觉辅助推理。项目页面:https://mathcanvas.github.io/。
尽管大型语言模型 (LLM) 在文本推理方面表现出色,但在本质上依赖视觉辅助的几何等数学领域却面临困难。现有的视觉链式思考 (VCoT) 方法通常受限于僵化的外部工具,或者无法生成用于复杂问题解决所需的高保真、战略性定时图表。为了弥合这一差距,我们引入了 MathCanvas,一个旨在赋予统一的大型多模态模型 (LMM) 内在 VCoT 数学能力的综合框架。我们的方法包括两个阶段。首先,视觉操纵阶段在包含 1000 万个字幕-图表对 (MathCanvas-Imagen) 和 520 万个逐步编辑轨迹 (MathCanvas-Edit) 的新型 1520 万对语料库上预训练模型,以掌握图表生成和编辑。其次,战略性视觉辅助推理阶段在 MathCanvas-Instruct 上对模型进行微调,这是一个包含 21.9 万个示例的交错视觉-文本推理路径的新数据集,教会模型何时以及如何利用视觉辅助。为了促进严格评估,我们引入了 MathCanvas-Bench,一个包含 3000 个需要模型生成交错视觉-文本解决方案的难题的基准。我们在该框架下训练的模型 BAGEL-Canvas,在 MathCanvas-Bench 上的性能比强大的 LMM 基线提高了 86%,在其他公共数学基准上表现出出色的泛化能力。我们的工作提供了一个完整的工具包——框架、数据集和基准——以解锁 LMM 中复杂、类人视觉辅助推理的能力。