Skywork R1V2:多模态混合强化学习用于推理

发表
Xuchen SongXuchen Song 提交
作者: chrisChris, Yichen Wei, PENG YIYi Peng, wangxiaokunXiaokun Wang, weijie qiuWeijie Qiu, Wei Shen, xietianTianyidan Xie, Jiangbo PeiJiangbo Pei, Jianhao ZhangJianhao Zhang, Yunzhuo HaoYunzhuo Hao, Xuchen SongXuchen Song, Yang Liu, Yahui Zhou

摘要

我们推出 Skywork R1V2,这是一款下一代多模态推理模型,也是其前身 Skywork R1V 的重大飞跃。R1V2 的核心在于引入了一种混合强化学习范式,它将奖励模型引导与基于规则的策略相结合,从而解决了平衡复杂推理能力与广泛泛化性的长期挑战。为了进一步提升训练效率,我们提出了选择性样本缓冲区(SSB)机制,该机制通过在整个优化过程中优先处理高价值样本,有效解决了群体相对策略优化(GRPO)固有的“优势消失”困境。值得注意的是,我们观察到过度的强化信号可能导致视觉幻觉——我们在整个训练过程中通过校准的奖励阈值系统地监测并缓解了这一现象。实证结果证实了 R1V2 的卓越能力,其在 OlympiadBench 上取得 62.6 分、AIME2024 上取得 79.0 分、LiveCodeBench 上取得 63.6 分以及在 MMMU 上取得 74.0 分等领先基准的表现。这些结果突显了 R1V2 相较现有开源模型的优越性,并展示了在缩小与顶尖专有系统(包括 Gemini 2.5 和 OpenAI o4-mini)性能差距方面的重大进展。Skywork R1V2 模型权重已公开发布,以促进开放性和可复现性 https://huggingface.co/Skywork/Skywork-R1V2-38B
查看 arXiv 页面查看 PDF

评论

Xuchen SongXuchen Song
论文作者
论文提交者

Github: https://github.com/SkyworkAI/Skywork-R1V

r1v_2.gif