⏶63
Skywork-R1V3 技术报告
发表
由
random 提交
作者: Wei Shen, Jiangbo Pei, Yi Peng, Xuchen Song, Yang Liu, Jian Peng, Haofeng Sun, Yunzhuo Hao,
Peiyu Wang, Yahui Zhou

摘要
我们推出了 Skywork-R1V3,这是一种先进的开源视觉-语言模型(VLM),它开创了视觉推理的新方法。其核心创新在于有效地将纯文本大型语言模型(LLM)的推理能力迁移到视觉任务中。Skywork-R1V3 的强大性能主要源于我们精心设计的训练后强化学习(RL)框架,该框架有效激活并增强了模型的推理能力,无需额外的继续预训练。通过此框架,我们进一步揭示了连接器模块在实现多模态推理模型稳健跨模态对齐方面的根本作用。此外,我们引入了一种独特的推理能力指标——关键推理令牌的熵,这在 RL 训练期间对检查点选择非常有效。Skywork-R1V3 在 MMMU 上取得了最新技术水平的结果,显著从64.3%提升至76.0%。这一表现与入门级人类能力相当。值得注意的是,我们由 RL 驱动的训练后方法使38B参数模型也能够与顶级的闭源 VLM 相媲美。该实现成功地将数学推理迁移到其他学科相关的推理任务。我们还包括对课程学习和强化微调策略的分析,以及对多模态推理的更广泛讨论。Skywork-R1V3 代表了多模态推理领域的重大飞跃,展示了 RL 作为推动开源 VLM 能力发展的强大引擎。

评论
论文提交者
此评论已隐藏。