MM-PRM: 通过可扩展的步骤级监督增强多模态数学推理能力

发表
Lingxiao DuLingxiao Du 提交
作者: Lingxiao DuLingxiao Du, fanqing mengFanqing Meng, kkkaiZongkai Liu, Zhixiang ZhouZhixiang Zhou, Ping Luo, Qiaosheng ZHANGQiaosheng Zhang, Wenqi ShaoWenqi Shao

摘要

尽管多模态大语言模型 (MLLMs) 在视觉-语言理解方面取得了令人瞩目的进展,但它们在复杂的 L步推理方面仍然存在困难,常常产生逻辑不一致或部分正确的解决方案。一个关键的限制在于对中间推理步骤缺乏细粒度的监督。为了解决这个问题,我们提出了 MM-PRM,这是一个在完全自动化、可扩展框架内训练的进程奖励模型。我们首先构建了 MM-Policy,这是一个在多样化数学推理数据上训练的强大多模态模型。然后,我们构建了 MM-K12,一个包含 10,000 个具有可验证答案的多模态数学问题的精选数据集,作为种子数据。利用基于蒙特卡洛树搜索 (MCTS) 的流程,我们在没有人为标注的情况下生成了超过 70 万个步骤级标注。得到的 PRM 用于在 Best-of-N 推理设置中对候选推理路径进行评分,并在域内 (MM-K12 测试集) 和域外 (OlympiadBench、MathVista 等) 基准测试中均取得了显著改进。进一步的分析证实了软标签、较小的学习率和路径多样性在优化 PRM 性能方面的有效性。MM-PRM 表明进程监督是增强多模态推理系统逻辑鲁棒性的强大工具。我们将在 https://github.com/ModalMinds/MM-PRM 发布所有代码和数据。
查看 arXiv 页面查看 PDF

评论

Lingxiao DuLingxiao Du
论文作者
论文提交者

论文:https://arxiv.org/abs/2505.13427

代码:https://github.com/ModalMinds/MM-PRM