MMR1: 通过方差感知采样和开放资源增强多模态推理

发表
Leng SicongLeng Sicong 提交
作者: Sicong Leng, Wang JingJing Wang, JiaxiJiaxi Li, ZHANG HAOHao Zhang, Zhiqiang HuZhiqiang Hu, Boqiang Zhang, Yuming JiangYuming Jiang, Hang Zhang, Xin Li, Lidong BingLidong Bing, Deli Zhao, Wei Lu, Yu RongYu Rong, Aixin SunAixin Sun, Shijian Lu

摘要

AI 生成总结
方差感知采样和大规模 CoT 数据通过稳定 RL 微调并提高在基准测试上的性能,从而增强了多模态推理模型。
大型多模态推理模型取得了飞速的进步,但它们的进步受到两大主要限制的制约:缺乏开放、大规模、高质量的长链思维(CoT)数据,以及训练后强化学习(RL)算法的不稳定性。群组相对策略优化(GRPO)是RL微调的标准框架,当奖励方差较低时容易出现梯度消失,从而削弱了优化信号并影响了收敛。这项工作做出了三项贡献:(1)我们提出了方差感知采样(VAS),一种由方差提升分数(VPS)引导的数据选择策略,它结合了结果方差和轨迹多样性来提升奖励方差并稳定策略优化。(2)我们发布了大规模、精心策划的资源,包含约160万个长CoT冷启动数据和约1.5万个RL QA对,旨在确保质量、难度和多样性,并提供了一个完全可复现的端到端训练代码库。(3)我们开源了一系列多尺度多模态推理模型,为社区建立了标准化的基准。在数学推理基准上的实验证明了策划数据和提出的VAS的有效性。全面的消融研究和分析提供了对每个组件贡献的进一步见解。此外,我们从理论上确立了奖励方差是期望策略梯度幅度的下界,而VAS作为实现这一保证的实际机制。我们的代码、数据和检查点可在https://github.com/LengSicong/MMR1 获取。
查看 arXiv 页面查看 PDF

评论

Leng SicongLeng Sicong
论文提交者

我们为社区发布以下资源:https://github.com/LengSicong/MMR1

MMR1-SFT (~16M):监督微调数据集,包含 1600 万条长 CoT 冷启动轨迹(Gemini2.5 Pro/Flash),并附带经过验证的简短答案(GPT-4o)
MMR1-RL (15k):RL 数据集,包含 15,000 对问题-答案(GPT-4o)
MMR1-3B-SFT:使用 MMR1-SFT 训练的 3B 检查点
MMR1-3B-RL:使用 MMR1-SFT 和 MMR1-RL 训练的 3B 检查点
MMR1-7B-SFT:使用 MMR1-SFT 训练的 7B 检查点
MMR1-7B-RL:使用 MMR1-SFT 和 MMR1-RL 训练的 7B 检查点
MMR1-32B-SFT:使用 MMR1-SFT 训练的 32B 检查点
MMR1-32B-RL:使用 MMR1-SFT 和 MMR1-RL 训练的 32B 检查点(进行中!)

Yury PanikovYury Panikov

感谢分享数据