⏶241
InternVL3:探索开源多模态模型的高级训练和测试时技巧
发表
由
Weiyun Wang 提交

作者: Jinguo Zhu,
Weiyun Wang,
Zhe Chen, Zhaoyang Liu,
Shenglong Ye,
Lixin Gu,
Yuchen Duan, Hao Tian,
Weijie Su,
Jie Shao, Zhangwei Gao,
Erfei Cui,
Yue Cao, Yangzhou Liu,
Weiye Xu, Hao Li,
Jiahao Wang,
Han Lv, Dengnian Chen,
Songze Li,
Yinan He, Tan Jiang,
Jiapeng Luo, Yi Wang,
Conghui He, Botian Shi, Xingcheng Zhang,
Wenqi Shao,
Junjun He,
Yingtong Xiong,
Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu,
Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou,
Lewei Lu, Xizhou Zhu, Tong Lu,
Dahua Lin, Yu Qiao, Jifeng Dai,
Wenhai Wang




摘要
我们介绍了 InternVL3,这是 InternVL 系列的一个重大进步,采用了原生的多模态预训练范式。InternVL3 并非将仅文本的大型语言模型 (LLM) 改编为支持视觉输入的多模态大型语言模型 (MLLM),而是在单个预训练阶段,从多样化的多模态数据和纯文本语料库中共同获取多模态和语言能力。这种统一的训练范式有效地解决了传统的 MLLM 事后训练流程中常见的复杂性和对齐挑战。为了进一步提高性能和可扩展性,InternVL3 融入了可变视觉位置编码 (V2PE) 以支持扩展的多模态上下文,采用了诸如监督微调 (SFT) 和混合偏好优化 (MPO) 等先进的后训练技术,并采用了测试时缩放策略以及优化的训练基础设施。广泛的实证评估表明,InternVL3 在各种多模态任务中均表现出卓越的性能。特别是,InternVL3-78B 在 MMMU 基准测试中取得了 72.2 分的成绩,在开源 MLLM 中树立了新的最先进水平。它的能力与包括 ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 2.5 Pro 在内的领先专有模型相比仍然极具竞争力,同时还保持了强大的纯语言能力。为了秉持开放科学原则,我们将公开发布训练数据和模型权重,以促进下一代 MLLM 的进一步研究和开发。












评论

论文作者
论文提交者
另请参阅以下论文,了解有关 InternVL3 训练策略的更多详细信息:
MPO
: https://huggingface.co/papers/2411.10442
V2PE
: https://huggingface.co/papers/2412.09616
VisualPRM
: https://huggingface.co/papers/2503.10291
感谢您的提问!表 12 实际上包含两个独立的实验:一个没有 V2PE(第一行),一个有 V2PE(接下来的五行)。
在基线实验(没有 V2PE)中,我们采用了标准的位置编码——每个视觉 token 都被简单地分配一个位置索引,该索引递增 1。在 V2PE 设置中,模型使用不同 δ 值的动态采样进行训练(1、1/2、1/4、...、1/128、1/256),如公式 4 中所述。然而,在推理时,我们将 δ 固定为特定值以评估其影响。
因此,为了澄清:
第一行代表没有 V2PE 训练的基线模型,它使用传统的位置编码。
接下来的五行对应于在不同 δ 值下评估的相同 V2PE 训练模型。
因此,表格下半部分中 δ=1 的设置与基线不同——它是使用固定 δ=1 在推理时评估的 V2PE 训练模型,
我们介绍了 InternVL3,这是 InternVL 系列的一个重大进步,采用了原生的多模态预训练范式。InternVL3 没有将仅文本的大型语言模型 (LLM) 改编为支持视觉输入的多模态大型语言模型 (MLLM),而是在单个预训练阶段,从多样化的多模态数据和纯文本语料库中共同获取多模态和语言能力。这种统一的训练范式有效地解决了传统 MLLM 事后训练管道中常见的复杂性和对齐挑战。为了进一步提高性能和可扩展性,InternVL3 结合了可变视觉位置编码 (V2PE) 以支持扩展的多模态上下文,采用了诸如监督微调 (SFT) 和混合偏好优化 (MPO) 等先进的后训练技术,并采用了测试时缩放策略以及优化的训练基础设施。广泛的实证评估表明,InternVL3 在各种多模态任务中均表现出卓越的性能。特别是,InternVL3-78B 在 MMMU 基准测试中取得了 72.2 分的成绩,在开源 MLLM 中树立了新的最先进水平。它的能力与领先的专有模型(包括 ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 2.5 Pro)保持着高度的竞争力,同时还保持着强大的纯语言能力。为了追求开放科学原则,我们将公开发布训练数据和模型权重,以促进下一代 MLLM 的进一步研究和开发。