We-Math 2.0:一个用于激励视觉化数学推理的多功能数学手册系统

发表
QRQQRQ 提交
作者: QRQRunqi Qiao, Qiuna Tan, Yang PeiqingPeiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, KABIGuanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang

摘要

多模态大语言模型(MLLM)在各种任务中展现了令人印象深刻的能力,但在复杂的数学推理方面仍然存在困难。现有研究主要集中在数据集构建和方法优化上,往往忽略了两个关键方面:全面的知识驱动设计和以模型为中心的数据空间建模。在本文中,我们推出了 We-Math 2.0,这是一个统一的系统,它集成了结构化的数学知识体系、以模型为中心的数据空间建模和基于强化学习(RL)的训练范式,以全面增强多模态大语言模型的数学推理能力。We-Math 2.0 的主要贡献有四方面:(1)MathBook 知识系统:我们构建了一个包含 491 个知识点和 1819 条基本原理的五级分层系统。(2)MathBook-Standard 和 Pro:我们开发了 MathBook-Standard 数据集,通过双重扩展确保了广泛的概念覆盖和灵活性。此外,我们定义了一个三维难度空间,并为每个问题生成了 7 个渐进式变体,以构建用于稳健训练的挑战性数据集 MathBook-Pro。(3)MathBook-RL:我们提出了一个两阶段的强化学习框架,包括:(i) 冷启动微调,使模型与面向知识的思维链推理对齐;以及 (ii) 渐进式对齐强化学习,利用平均奖励学习和动态数据调度,实现跨难度级别的渐进式对齐。(4)MathBookEval:我们引入了一个全面的基准测试,覆盖了所有 491 个知识点,并具有多样的推理步骤分布。实验结果表明,MathBook-RL 在四个广泛使用的基准测试中与现有基线相比具有竞争力,并在 MathBookEval 上取得了优异的成绩,这表明其在数学推理方面具有良好的泛化潜力。
查看 arXiv 页面查看 PDF
We-Math 2.0:一个用于激励视觉化数学推理的多功能数学手册系统
We-Math 2.0:一个用于激励视觉化数学推理的多功能数学手册系统

评论

QRQQRQ
论文作者
论文提交者

🚀 网页:https://we-math2.github.io/

💻 Github:https://github.com/We-Math/We-Math2.0

💡 概述

We-Math 2.0 是一个统一的系统,旨在全面提升多模态大型语言模型(MLLMs)的数学推理能力。它集成了结构化数学知识系统、以模型为中心的数据空间建模以及基于强化学习(RL)的训练范式,以实现广泛的概念覆盖和在不同难度水平下的鲁棒推理性能。

We-Math 2.0 的主要贡献有四个方面:

  • MathBook 知识系统 — 一个五级层次结构,包含 491 个 知识点和 1,819 个 基本原理。

  • MathBook-Standard & MathBook-Pro — MathBook-Standard 通过 双重扩展 确保广泛的概念覆盖和灵活性,而 MathBook-Pro 定义了一个 三维难度空间,并为每个问题生成 7 个渐进变体,以实现鲁棒训练。

  • MathBook-RL — 一个两阶段 RL 框架,包括用于知识导向思维链对齐的冷启动微调,以及采用平均奖励学习和动态数据调度的 渐进对齐 RL,以实现不同难度水平的逐步对齐。

  • MathBookEval — 一个综合基准,涵盖所有 491 个知识点,具有多样化的推理步骤分布。

🏃🏃🏃我们训练集中的所有图像均使用 GeoGebra 软件手动精心制作,确保它们是全新创建、精确的,并且在空间几何严谨性和复杂性方面超越了常见的基于 Python 的渲染方法

QRQQRQ
论文作者
论文提交者

WechatIMG152.jpg

We-MathWe-Math

您可以访问我们的项目页面查看以下内容的完整版本!

MathBook 知识系统

old-ks.png

Mathbook-Standard

ms.png

MathBook-Pro

mp.png

QRQQRQ
论文作者
论文提交者
构建 We-Math 2.0 的反思

受 MathVista 的启发,该研究发现模型在高中数学问题上的表现出人意料地接近小学水平的问题;以及我们的 We-Math 基准,其中模型可以解决复杂问题,但却常常在分解的子问题上失败。这使我们坚信,一个结构化的数学知识系统是推进多模态数学推理的必然一步——也许今天它不是最关键的因素,但却是未来的基础。

因此,我们着手构建一个完整的知识层次结构,并创建精确映射到每个知识点的训练数据。最初,我们参考了大量的资料来设计系统,但很快意识到收集到的问题很少能与特定的知识点 cleanly 对齐,大多数都表现出非正交的覆盖。

为了解决这个问题,我们选择了一条非常规的道路:放弃所有收集到的问题,转而手动编写每一个问题和图表。我们利用 GeoGebra 软件确保了实体几何所需的质量和空间复杂性,从而开始了一个漫长而艰巨的构建过程。在此过程中,我们观察到强化学习在增强视觉推理方面显示出潜力,这启发我们定义了一个三维难度空间,并为选定的种子问题生成了渐进难度变体——最终形成了 MathBook-Pro。

尽管我们尝试了各种自动化生成技术,但没有一种达到我们的质量标准,因此我们完全致力于手动创建

经过近一年的创业公司式强度工作,我们发布了 We-Math 2.0 的第一个版本。我们希望这项工作能为研究界和更广泛的 AI 教育领域做出有意义的贡献。所有 .ggb 源文件将完全开源,以便教师和教育工作者可以自由地改编它们,并将其引入课堂。

我们希望您喜欢它!