⏶43
SAIL-VL2 技术报告
发表
由
taesiri 提交

作者:
Weijie Yin, Yongjie Ye,
Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong,
Haiyang Yu, Dingkang Yang,
Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
摘要
AI 生成总结
SAIL-VL2 是一种视觉语言基础模型,它通过数据整理、渐进式训练和稀疏 MoE 架构,在各种基准测试中取得了最先进的性能。我们推出 SAIL-VL2,这是一个开放套件的视觉语言基础模型 (LVM),用于全面的多模态理解和推理。作为 SAIL-VL 的后续版本,SAIL-VL2 在 2B 和 8B 参数规模下,在各种图像和视频基准测试中取得了最先进的性能,展现了从细粒度感知到复杂推理的强大能力。三个核心创新驱动了其有效性。首先,一个带有评分和过滤策略的大规模数据整理管道,提高了字幕、OCR、QA 和视频数据的质量和分布,提高了训练效率。其次,一个渐进式训练框架,从强大的预训练视觉编码器 (SAIL-ViT) 开始,通过多模态预训练进行,并最终通过一个系统地增强模型能力的思维融合 SFT-RL 混合范式完成。第三,架构的进步超越了密集 LLM,扩展到高效的稀疏专家混合 (MoE) 设计。凭借这些贡献,SAIL-VL2 在 106 个数据集上展现出具有竞争力的性能,并在 MMMU 和 MathVista 等具有挑战性的推理基准测试上取得了最先进的结果。此外,在 OpenCompass 排行榜上,SAIL-VL2-2B 在 4B 参数规模下的官方发布的开源模型中排名第一,同时为开源多模态社区提供了一个高效且可扩展的基础。
我们推出了 SAIL-VL2,一个用于全面多模态理解和推理的开源视觉-语言基础模型 (LVM)。作为 SAIL-VL 的后续产品,SAIL-VL2 在 2B 和 8B 参数规模下,在各种图像和视频基准上均取得了最先进的性能,展现了从细粒度感知到复杂推理的强大能力。三个核心创新驱动了其有效性。首先,一个具有评分和过滤策略的大规模数据策划管道,提高了字幕、OCR、QA 和视频数据的质量和分布,从而提高了训练效率。其次,一个渐进式训练框架,从一个强大的预训练视觉编码器 (SAIL-ViT) 开始,通过多模态预训练进行推进,并最终达到一个系统性增强模型能力的思考融合 SFT-RL 混合范式。第三,架构进步超越了密集 LLM,转向高效的稀疏专家混合 (MoE) 设计。凭借这些贡献,SAIL-VL2 在 106 个数据集上展现了具有竞争力的性能,并在 MMMU 和 MathVista 等具有挑战性的推理基准上取得了最先进的结果。此外,在 OpenCompass 排行榜上,SAIL-VL2-2B 在 4B 参数规模以下的官方发布的开源模型中排名第一,同时为开源多模态社区提供了高效且可扩展的基础。