⏶81
Skywork R1V:采用思维链的开创性多模态推理
发表
由
Xuchen Song 提交
作者: Yi Peng,
Chris,
Xiaokun Wang,
Yichen Wei,
Jiangbo Pei,
Weijie Qiu,
Ai Jian,
Yunzhuo Hao, Jiachun Pan,
Tianyidan Xie, Li Ge, Rongxian Zhuang,
Xuchen Song, Yang Liu, Yahui Zhou



摘要
我们介绍了 Skywork R1V,这是一种多模态推理模型,通过高效的多模态迁移方法将 R1 系列大型语言模型 (LLM) 扩展到视觉模态。Skywork R1V 利用轻量级视觉投影仪,无需重新训练基础语言模型或视觉编码器即可实现无缝多模态适应。为了加强视觉-文本对齐,我们提出了一种混合优化策略,该策略结合了迭代监督微调 (SFT) 和群体相对策略优化 (GRPO),从而显着提高了跨模态集成效率。此外,我们还为推理数据生成引入了一种自适应长度的思维链蒸馏方法。这种方法动态优化推理链长度,从而提高推理效率并防止过度推理思考。实证评估表明,Skywork R1V 仅有 38B 参数,即可提供具有竞争力的性能,在 MMMU 基准测试中获得 69.0 分,在 MathVista 中获得 67.5 分。同时,它保持了强大的文本推理性能,在 AIME 上获得了 72.0 分,在 MATH500 上获得了 94.0 分,成绩斐然。Skywork R1V 模型权重已公开发布,以促进开放性和可重复性。
Skywork R1V:一个开源的 38B 多模态推理模型,通过高效迁移、混合 SFT+GRPO 训练和自适应 CoT 蒸馏,将 R1 系列 LLM 扩展到视觉领域——在 MMMU 上达到 69.0,在 MathVista 上达到 67.5,具有强大的数学推理能力。模型权重已开源! #AI #LLM #多模态
https://github.com/SkyworkAI/Skywork-R1V