⏶12
Mono-InternVL-1.5:迈向更低成本、更快速的单体多模态大语言模型
发表
由
Zhaokai Wang 提交
作者: Gen Luo,
Wenhan Dou, Wenhao Li,
Zhaokai Wang, Xue Yang,
Changyao Tian, Hao Li, Weiyun Wang, Wenhai Wang,
Xizhou Zhu, Yu Qiao,
Jifeng Dai

摘要
本文专注于单体多模态大型语言模型(MLLMs),该模型将视觉编码和语言解码集成到单个模型中。现有单体 MLLMs 的结构和预训练策略常常面临优化不稳定和灾难性遗忘的问题。为解决这些挑战,我们的核心思想是在预训练的 LLM 中嵌入一个新的视觉参数空间,从而能够通过 delta 微调从嘈杂数据中稳定学习视觉知识。基于此原则,我们首先引入了 Mono-InternVL,这是一种先进的单体 MLLM,它通过多模态混合专家(MoE)架构整合了一组视觉专家。此外,我们为 Mono-InternVL 设计了一种创新的内生视觉预训练(EViP),通过渐进式学习最大化其视觉能力。Mono-InternVL 在与现有 MLLMs 的竞争中取得了有竞争力的性能,但也导致了相对昂贵的数据成本。因此,我们进一步提出了 Mono-InternVL-1.5,这是一种成本更低、更强大的单体 MLLM,配备了改进的 EViP (EViP++)。EViP++ 为 Mono-InternVL-1.5 引入了额外的视觉注意力专家,并以高效的方式重组了预训练过程。在推理过程中,它包含一个融合的 CUDA 内核以加速其 MoE 操作。通过这些设计,Mono-InternVL-1.5 显著降低了训练和推理成本,同时仍保持与 Mono-InternVL 相当的性能。为了评估我们的方法,我们对 15 个基准进行了广泛的实验。结果表明,Mono-InternVL 在 15 个基准中的 12 个上优于现有单体 MLLMs,例如在 OCRBench 上比 Emu3 提高了 114 分。与模块化对应模型 InternVL-1.5 相比,Mono-InternVL-1.5 实现了相似的多模态性能,同时将首个 token 的延迟降低了高达 69%。代码和模型已在 https://github.com/OpenGVLab/Mono-InternVL 发布。
我们推出了Mono-InternVL-1.5,一个更经济、更快速的单体多模态大语言模型(MLLM),它具有视觉注意力专家模块、改进的训练策略(EViP++)以及用于多模态MoE的融合CUDA核。
代码:https://github.com/OpenGVLab/Mono-InternVL