⏶205
Qwen2.5-VL 技术报告
发表
由
shuai bai 提交
作者:
Shuai Bai,
Keqin Chen, Xuejing Liu,
Jialin Wang,
Wenbin Ge,
Sibo Song,
Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong,
Yuanzhi Zhu,
Mingkun Yang, Zhaohai Li,
Jianqiang Wan, Pengfei Wang,
Wei Ding,
Zheren Fu,
Yiheng Xu,
Jiabo Ye, Xi Zhang,
Tianbao Xie,
Zesen Cheng, Hang Zhang, Zhibo Yang,
Haiyang Xu,
Junyang Lin
摘要
AI 生成总结
Qwen2.5-VL,最新的视觉-语言模型,通过动态分辨率处理、窗口注意力(Window Attention)和原生视觉 Transformer(Vision Transformer)推进了视觉识别、文档解析和视频理解。我们介绍了 Qwen2.5-VL,Qwen 视觉-语言系列的最新旗舰模型,它在基础能力和创新功能方面都展示了显着进步。Qwen2.5-VL 在通过增强的视觉识别、精确的物体定位、强大的文档解析和长视频理解来理解和与世界互动方面实现了重大飞跃。Qwen2.5-VL 的一个突出特点是它能够使用边界框或点精确定位物体。它提供了从发票、表格和表格中提取强大的结构化数据,以及对图表、示意图和布局的详细分析。为了处理复杂的输入,Qwen2.5-VL 引入了动态分辨率处理和绝对时间编码,使其能够处理各种尺寸的图像和持续时间较长的视频(长达数小时),并具有秒级事件定位能力。这使得模型能够自然地感知空间尺度和时间动态,而无需依赖传统的归一化技术。通过从头开始训练原生动态分辨率 Vision Transformer (ViT) 并结合窗口注意力机制,我们在保持原生分辨率的同时降低了计算开销。因此,Qwen2.5-VL 不仅在静态图像和文档理解方面表现出色,而且作为一种交互式视觉代理,能够在计算机和移动设备操作等现实场景中进行推理、工具使用和任务执行。Qwen2.5-VL 提供三种尺寸,满足从边缘人工智能到高性能计算的各种用例。旗舰模型 Qwen2.5-VL-72B 与 GPT-4o 和 Claude 3.5 Sonnet 等最先进的模型相媲美,尤其是在文档和图表理解方面表现出色。此外,Qwen2.5-VL 保持了强大的语言性能,保留了 Qwen2.5 大型语言模型的核心语言能力。
评论
论文作者
论文提交者
Qwen2.5-VL 技术报告

演示:https://chat.qwenlm.ai
huggingface-org: https://huggingface.co/Qwen
modelscope-org: https://modelscope.cn/organization/qwen
github-repo: https://github.com/QwenLM/Qwen2.5-VL