InternVL3.5:在通用性、推理和效率方面推动开源多模态模型的发展

发表
taesiritaesiri 提交
作者: Weiyun WangWeiyun Wang, Zhangwei Gao, Lixin GuLixin Gu, Hengjun PuHengjun Pu, Long Cui, Xingguang WeiXingguang Wei, Zhaoyang Liu, LinglinLinglin Jing, YeshenglongShenglong Ye, Jie ShaoJie Shao, Zhaokai WangZhaokai Wang, Zhe Chen, Hongjie Zhang, Ganlin YangGanlin Yang, Haomin WangHaomin Wang, Qi WeiQi Wei, Jinhui Yin, Wenhao Li, Erfei Cui, Guanzhou ChenGuanzhou Chen, Zichen DingZichen Ding, Changyao Tian, Zhenyu Wu, JingJing XieJingjing Xie, Zehao Li, ybwBowen Yang, Yuchen Duan, Xuehui Wang, Songze LiSongze Li, Xiangyu Zhao, HAODONG DUANHaodong Duan, Nianchen Deng, Bin Fu, Yinan He, Yi Wang, Conghui He, Botian Shi, Junjun He, Yingtong Xiong, Han Lv, Lijun Wu, Wenqi Shao, Kaipeng Zhang, Huipeng Deng, Biqing Qi, Jiaye Ge, Qipeng Guo, Wenwei Zhang, Wanli Ouyang, Limin Wang, Min Dou, Xizhou Zhu, Tong Lu, Dahua Lin, Jifeng Dai, Bowen Zhou, Weijie Su, Kai Chen, Yu Qiao, Wenhai Wang, Gen Luo

摘要

我们介绍了 InternVL 3.5,一个新系列开源多模态模型,它显著提高了 InternVL 系列模型在多功能性、推理能力和推理效率方面的表现。一项关键创新是级联强化学习(Cascade RL)框架,该框架通过一个两阶段过程增强推理能力:离线 RL 用于稳定收敛,在线 RL 用于精细对齐。这种粗到精的训练策略在下游推理任务(如 MMMU 和 MathVista)上取得了显著的改进。为了优化效率,我们提出了视觉分辨率路由器(ViR),它可以在不影响性能的情况下动态调整视觉令牌的分辨率。结合 ViR,我们的解耦视觉语言部署(DvD)策略将视觉编码器和语言模型部署在不同的 GPU 上,有效平衡了计算负载。这些贡献共同使 InternVL3.5 在整体推理性能上提升了高达 +16.0%,推理速度提升了 4.05 倍,相比其前身 InternVL3。此外,InternVL3.5 支持新功能,例如 GUI 交互和具身智能。值得注意的是,我们最大的模型 InternVL3.5-241B-A28B 在通用多模态、推理、文本和智能体任务上取得了开源 MLLM 的最先进结果,缩小了与 GPT-5 等领先商业模型的性能差距。所有模型和代码都已公开发布。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 我们推出了InternVL 3.5,一个全新的开源多模态模型系列,显著提升了InternVL系列的通用性、推理能力和推理效率。一项关键创新是级联强化学习(Cascade RL)框架,它通过一个两阶段过程增强推理能力:离线RL用于稳定收敛,在线RL用于精细对齐。这种粗到精的训练策略在下游推理任务上带来了显著的改进,例如MMMU和MathVista。为了优化效率,我们提出了一种视觉分辨率路由器(ViR),它可以在不牺牲性能的情况下动态调整视觉标记的分辨率。结合ViR,我们的解耦视觉语言部署(DvD)策略将视觉编码器和语言模型部署在不同的GPU上,有效地平衡了计算负载。这些贡献共同使得InternVL3.5在整体推理性能上相较于其前身InternVL3取得了高达+16.0%的提升,推理速度提升了4.05倍。此外,InternVL3.5支持新颖的功能,如GUI交互和具身智能。值得注意的是,我们最大的模型,即InternVL3.5-241B-A28B,在通用多模态、推理、文本和代理任务上取得了开源MLLMs的最新成果——缩小了与GPT-5等领先商业模型的性能差距。所有模型和代码均已公开。

taesiritaesiri
论文提交者

Github 仓库:https://github.com/OpenGVLab/InternVL

avidusavidus

求解方程 √(a - √(a + x)) = x,其中 a > 1

raed jemliraed jemli

Weiyun WangWeiyun Wang
论文作者

我们的模型演示现已上线!欢迎在此页面试用:https://chat.intern-ai.org.cn/