⏶47
Bee:一个高质量语料库和全栈套件,用于解锁高级全开源 MLLM
发表
由
gmh 提交
作者:
Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu,
Meng-Hao Guo, Shi-Min Hu

摘要
AI 生成总结
一个用于数据策展的新数据集和管道提高了全开放多模态大型语言模型的性能,取得了与半开放模型具有竞争力的最先进成果。完全开源的多模态大语言模型 (MLLM) 目前落后于专有模型,这主要是由于监督微调 (SFT) 的数据质量存在显著差距。现有的开源数据集通常充斥着广泛的噪声,并且在诸如思维链 (CoT) 等复杂推理数据方面存在严重不足,这阻碍了高级模型能力的开发。为了解决这些挑战,我们的工作做出了三项主要贡献。首先,我们引入了 Honey-Data-15M,一个包含约 1500 万个 QA 对的新 SFT 数据集,通过多种清洗技术进行处理,并增强了新颖的双级(短和长)CoT 丰富策略。其次,我们引入了 HoneyPipe,数据整理管道,以及其底层框架 DataStudio,为社区提供了一种透明且可适应的数据整理方法,超越了静态数据集发布。最后,为了验证我们的数据集和管道,我们在 Honey-Data-15M 上训练了一个 80 亿参数的模型 Bee-8B。实验表明,Bee-8B 创下了完全开源 MLLM 的新 SOTA(最先进水平),其性能与最近的半开源模型(如 InternVL3.5-8B)相当,在某些情况下甚至超越了它们。我们的工作为社区提供了一套基础资源,包括:Honey-Data-15M 语料库;包含 HoneyPipe 和 DataStudio 的全栈套件;训练配方;评估工具;以及模型权重。这项工作表明,以原则性方式关注数据质量是开发与半开源模型高度竞争的完全开源 MLLM 的关键途径。
一个高质量语料库和全栈套件(数据、模型权重、代码等),用于解锁先进的全开源 MLLMs