MINT-CoT:在数学思维链推理中实现交错视觉令牌

发表
Xinyan ChenXinyan Chen 提交
作者: Xinyan ChenXinyan Chen, Renrui Zhang, Dongzhi JiangDongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li

摘要

思维链(CoT)已广泛增强大型语言模型(LLM)的数学推理能力,但将其扩展到多模态领域仍然充满挑战。现有工作要么对图像输入采用类似的文本推理,要么试图将视觉信号交织到数学 CoT 中。然而,它们在解决数学问题时面临三个关键限制:依赖粗粒度框形图像区域,视觉编码器对数学内容的感知有限,以及依赖外部能力进行视觉修改。在本文中,我们提出了 MINT-CoT,引入了用于思维链视觉推理的数学交织令牌。MINT-CoT 通过一个交织令牌自适应地将相关视觉令牌交织到文本推理步骤中,该令牌动态选择数学图形中任何形状的视觉区域。为了赋予这种能力,我们构建了 MINT-CoT 数据集,其中包含 54K 个数学问题,将每个推理步骤与令牌级别的视觉区域对齐,并伴随着严格的数据生成管道。我们进一步提出了三阶段 MINT-CoT 训练策略,逐步结合纯文本 CoT SFT、交织 CoT SFT 和交织 CoT RL,从而推导出我们的 MINT-CoT-7B 模型。广泛的实验证明了我们方法在数学领域有效视觉交织推理方面的有效性,其中 MINT-CoT-7B 在 MathVista 上比基线模型提高了 +34.08%,在 GeoQA 上提高了 +28.78%,在 MMStar 上提高了 +23.2%。我们的代码和数据可在 https://github.com/xinyan-cxy/MINT-CoT 获取。
查看 arXiv 页面查看 PDF

评论

Xinyan ChenXinyan Chen
论文作者
论文提交者

🔥论文:https://arxiv.org/abs/2506.05331

🚀代码:https://github.com/xinyan-cxy/MINT-CoT