We-Math 2.0:一个用于激励视觉化数学推理的多功能数学手册系统



摘要


评论

受 MathVista 的启发,该研究发现模型在高中数学问题上的表现出人意料地接近小学水平的问题;以及我们的 We-Math 基准,其中模型可以解决复杂问题,但却常常在分解的子问题上失败。这使我们坚信,一个结构化的数学知识系统是推进多模态数学推理的必然一步——也许今天它不是最关键的因素,但却是未来的基础。
因此,我们着手构建一个完整的知识层次结构,并创建精确映射到每个知识点的训练数据。最初,我们参考了大量的资料来设计系统,但很快意识到收集到的问题很少能与特定的知识点 cleanly 对齐,大多数都表现出非正交的覆盖。
为了解决这个问题,我们选择了一条非常规的道路:放弃所有收集到的问题,转而手动编写每一个问题和图表。我们利用 GeoGebra 软件确保了实体几何所需的质量和空间复杂性,从而开始了一个漫长而艰巨的构建过程。在此过程中,我们观察到强化学习在增强视觉推理方面显示出潜力,这启发我们定义了一个三维难度空间,并为选定的种子问题生成了渐进难度变体——最终形成了 MathBook-Pro。
尽管我们尝试了各种自动化生成技术,但没有一种达到我们的质量标准,因此我们完全致力于手动创建。
经过近一年的创业公司式强度工作,我们发布了 We-Math 2.0 的第一个版本。我们希望这项工作能为研究界和更广泛的 AI 教育领域做出有意义的贡献。所有 .ggb 源文件将完全开源,以便教师和教育工作者可以自由地改编它们,并将其引入课堂。
我们希望您喜欢它!
这篇论文的 arXiv 解释性解读 👉 https://arxivexplained.com/papers/we-math-20-a-versatile-mathbook-system-for-incentivizing-visual-mathematical-reasoning
这篇论文的 arXiv 解释性解读 👉 https://arxivexplained.com/papers/we-math-20-a-versatile-mathbook-system-for-incentivizing-visual-mathematical-reasoning
arXiv Explained 对这篇论文的解读 👉 https://arxivexplained.com/papers/we-math-20-a-versatile-mathbook-system-for-incentivizing-visual-mathematical-reasoning
🚀 网页:https://we-math2.github.io/
💻 Github:https://github.com/We-Math/We-Math2.0
We-Math 2.0 是一个统一的系统,旨在全面提升多模态大型语言模型(MLLMs)的数学推理能力。它集成了结构化数学知识系统、以模型为中心的数据空间建模以及基于强化学习(RL)的训练范式,以实现广泛的概念覆盖和在不同难度水平下的鲁棒推理性能。
We-Math 2.0 的主要贡献有四个方面:
MathBook 知识系统 — 一个五级层次结构,包含 491 个 知识点和 1,819 个 基本原理。
MathBook-Standard & MathBook-Pro — MathBook-Standard 通过 双重扩展 确保广泛的概念覆盖和灵活性,而 MathBook-Pro 定义了一个 三维难度空间,并为每个问题生成 7 个渐进变体,以实现鲁棒训练。
MathBook-RL — 一个两阶段 RL 框架,包括用于知识导向思维链对齐的冷启动微调,以及采用平均奖励学习和动态数据调度的 渐进对齐 RL,以实现不同难度水平的逐步对齐。
MathBookEval — 一个综合基准,涵盖所有 491 个知识点,具有多样化的推理步骤分布。
🏃🏃🏃我们训练集中的所有图像均使用 GeoGebra 软件手动精心制作,确保它们是全新创建、精确的,并且在空间几何严谨性和复杂性方面超越了常见的基于 Python 的渲染方法