⏶127
Qwen3-VL 技术报告
发表
由
shuai bai 提交
作者:
Shuai Bai, Yuxuan Cai, Ruizhe Chen, Keqin Chen,
Xionghui Chen,
Zesen Cheng, Lianghao Deng, Wei Ding, Chang Gao, Chunjiang Ge, Wenbin Ge, Zhifang Guo,
Qidong Huang, Jie Huang, Fei Huang, Binyuan Hui, Shutong Jiang, Zhaohai Li, Mingsheng Li, Mei Li,
Kaixin Li,
Zicheng Lin, Junyang Lin, Xuejing Liu, Jiawei Liu, Chenglong Liu, Yang Liu, Dayiheng Liu,
Shixuan Liu, Dunjie Lu, Ruilin Luo, Chenxu Lv, Rui Men, Lingchen Meng, Xuancheng Ren, Xingzhang Ren, Sibo Song, Yuchong Sun, Jun Tang, Jianhong Tu, Jianqiang Wan, Peng Wang, Pengfei Wang, Qiuyue Wang,
Yuxuan Wang, Tianbao Xie, Yiheng Xu,
Haiyang Xu, Jin Xu, Zhibo Yang, Mingkun Yang, Jianxin Yang, An Yang, Bowen Yu, Fei Zhang, Hang Zhang, Xi Zhang, Bo Zheng, Humen Zhong, Jingren Zhou, Fan Zhou, Jing Zhou,
Yuanzhi Zhu, Ke Zhu
摘要
AI 生成总结
Qwen3-VL 是一种视觉语言模型,通过先进的架构和更大的上下文在文本和多模态理解方面表现出色,在各项基准测试中取得了卓越的性能。我们推出了 Qwen3-VL,这是迄今为止 Qwen 系列中最强大的视觉语言模型,在广泛的多模态基准测试中取得了卓越的性能。它原生支持多达 256K 令牌的交错上下文,无缝集成文本、图像和视频。该模型家族包括密集(2B/4B/8B/32B)和专家混合(30B-A3B/235B-A22B)变体,以适应不同的延迟-质量权衡。Qwen3-VL 实现了三个核心支柱:(i)显著更强的纯文本理解能力,在某些情况下超越了可比较的纯文本主干;(ii)强大的长上下文理解能力,具有用于文本和交错多模态输入的本机 256K 令牌窗口,能够忠实地保留、检索和交叉引用长文档和视频;以及(iii)在单图像、多图像和视频任务中的高级多模态推理能力,在 MMMU 和视觉数学基准(例如 MathVista 和 MathVision)等综合评估中表现出领先的性能。在架构上,我们引入了三个关键升级:(i)增强的交错-MRoPE,用于在图像和视频中实现更强的时空建模;(ii)DeepStack 集成,它有效利用多级 ViT 特征来收紧视觉语言对齐;以及(iii)基于文本的视频时间对齐,从 T-RoPE 演变为显式文本时间戳对齐,以实现更精确的时间定位。在可比较的令牌预算和延迟约束下,Qwen3-VL 在密集和专家混合(MoE)架构中都取得了卓越的性能。我们设想 Qwen3-VL 将成为现实世界工作流中图像接地推理、代理决策和多模态代码智能的基础引擎。

Qwen3-VL 技术报告