⏶241

InternVL3：探索开源多模态模型的高级训练和测试时技巧

04月14日发表

04月15日由 Weiyun Wang 提交

作者: Jinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Yeshenglong Shenglong Ye, Lixin Gu, Duan Yuchen Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, cuierfei Erfei Cui, Cao Yue Yue Cao, Yangzhou Liu, Xu Wayen Weiye Xu, Hao Li, Jiahao Wang, Han Lv Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, JunjunHe Junjun He, xiong Yingtong Xiong, wenwenQu Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, wenhai.wang Wenhai Wang

摘要

我们介绍了 InternVL3，这是 InternVL 系列的一个重大进步，采用了原生的多模态预训练范式。InternVL3 并非将仅文本的大型语言模型 (LLM) 改编为支持视觉输入的多模态大型语言模型 (MLLM)，而是在单个预训练阶段，从多样化的多模态数据和纯文本语料库中共同获取多模态和语言能力。这种统一的训练范式有效地解决了传统的 MLLM 事后训练流程中常见的复杂性和对齐挑战。为了进一步提高性能和可扩展性，InternVL3 融入了可变视觉位置编码 (V2PE) 以支持扩展的多模态上下文，采用了诸如监督微调 (SFT) 和混合偏好优化 (MPO) 等先进的后训练技术，并采用了测试时缩放策略以及优化的训练基础设施。广泛的实证评估表明，InternVL3 在各种多模态任务中均表现出卓越的性能。特别是，InternVL3-78B 在 MMMU 基准测试中取得了 72.2 分的成绩，在开源 MLLM 中树立了新的最先进水平。它的能力与包括 ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 2.5 Pro 在内的领先专有模型相比仍然极具竞争力，同时还保持了强大的纯语言能力。为了秉持开放科学原则，我们将公开发布训练数据和模型权重，以促进下一代 MLLM 的进一步研究和开发。

查看 arXiv 页面查看 PDF

Weiyun Wang

论文作者

论文提交者

我们介绍了 InternVL3，这是 InternVL 系列的一个重大进步，采用了原生的多模态预训练范式。InternVL3 没有将仅文本的大型语言模型 (LLM) 改编为支持视觉输入的多模态大型语言模型 (MLLM)，而是在单个预训练阶段，从多样化的多模态数据和纯文本语料库中共同获取多模态和语言能力。这种统一的训练范式有效地解决了传统 MLLM 事后训练管道中常见的复杂性和对齐挑战。为了进一步提高性能和可扩展性，InternVL3 结合了可变视觉位置编码 (V2PE) 以支持扩展的多模态上下文，采用了诸如监督微调 (SFT) 和混合偏好优化 (MPO) 等先进的后训练技术，并采用了测试时缩放策略以及优化的训练基础设施。广泛的实证评估表明，InternVL3 在各种多模态任务中均表现出卓越的性能。特别是，InternVL3-78B 在 MMMU 基准测试中取得了 72.2 分的成绩，在开源 MLLM 中树立了新的最先进水平。它的能力与领先的专有模型（包括 ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 2.5 Pro）保持着高度的竞争力，同时还保持着强大的纯语言能力。为了追求开放科学原则，我们将公开发布训练数据和模型权重，以促进下一代 MLLM 的进一步研究和开发。

vansin

Weiyun Wang

论文作者

论文提交者

另请参阅以下论文，了解有关 InternVL3 训练策略的更多详细信息：

MPO: https://huggingface.co/papers/2411.10442

V2PE: https://huggingface.co/papers/2412.09616

VisualPRM: https://huggingface.co/papers/2503.10291

Kariuki james kariuki

精彩

DucTran

请问您可以将您的代码和数据集上传到 github 吗？

ZhengChuanyang

干得漂亮。在表 12 中，δ = 1 的 V2PE 等于 InternVL2.5 中使用的传统位置编码，它作为没有 V2PE 的基线？为什么 δ=1 会带来 0.5 的增益（从 75.2 提升到 75.7）？没有 V2PE 的基线是否意味着它根本不使用位置编码？

Lechatelia

感谢您的提问！表 12 实际上包含两个独立的实验：一个没有 V2PE（第一行），一个有 V2PE（接下来的五行）。

在基线实验（没有 V2PE）中，我们采用了标准的位置编码——每个视觉 token 都被简单地分配一个位置索引，该索引递增 1。在 V2PE 设置中，模型使用不同 δ 值的动态采样进行训练（1、1/2、1/4、...、1/128、1/256），如公式 4 中所述。然而，在推理时，我们将 δ 固定为特定值以评估其影响。

因此，为了澄清：

第一行代表没有 V2PE 训练的基线模型，它使用传统的位置编码。

接下来的五行对应于在不同 δ 值下评估的相同 V2PE 训练模型。

因此，表格下半部分中 δ=1 的设置与基线不同——它是使用固定 δ=1 在推理时评估的 V2PE 训练模型，

InternVL3：探索开源多模态模型的高级训练和测试时技巧

摘要

评论