Qwen2.5-VL 技术报告

发表
shuai baishuai bai 提交
作者: shuai baiShuai Bai, Keqin ChenKeqin Chen, Xuejing Liu, jialinwangJialin Wang, Wenbin GeWenbin Ge, Sibo SongSibo Song, kai dangKai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi ZhuYuanzhi Zhu, Mingkun YangMingkun Yang, Zhaohai Li, Jianqiang WangJianqiang Wan, Pengfei Wang, weidingWei Ding, Zheren FuZheren Fu, Yiheng XuYiheng Xu, Jiabo YeJiabo Ye, Xi Zhang, Tianbao XieTianbao Xie, Zesen ChengZesen Cheng, Hang Zhang, Zhibo Yang, xuhaiyangHaiyang Xu, Junyang LinJunyang Lin

摘要

AI 生成总结
Qwen2.5-VL,最新的视觉-语言模型,通过动态分辨率处理、窗口注意力(Window Attention)和原生视觉 Transformer(Vision Transformer)推进了视觉识别、文档解析和视频理解。
我们介绍了 Qwen2.5-VL,Qwen 视觉-语言系列的最新旗舰模型,它在基础能力和创新功能方面都展示了显着进步。Qwen2.5-VL 在通过增强的视觉识别、精确的物体定位、强大的文档解析和长视频理解来理解和与世界互动方面实现了重大飞跃。Qwen2.5-VL 的一个突出特点是它能够使用边界框或点精确定位物体。它提供了从发票、表格和表格中提取强大的结构化数据,以及对图表、示意图和布局的详细分析。为了处理复杂的输入,Qwen2.5-VL 引入了动态分辨率处理和绝对时间编码,使其能够处理各种尺寸的图像和持续时间较长的视频(长达数小时),并具有秒级事件定位能力。这使得模型能够自然地感知空间尺度和时间动态,而无需依赖传统的归一化技术。通过从头开始训练原生动态分辨率 Vision Transformer (ViT) 并结合窗口注意力机制,我们在保持原生分辨率的同时降低了计算开销。因此,Qwen2.5-VL 不仅在静态图像和文档理解方面表现出色,而且作为一种交互式视觉代理,能够在计算机和移动设备操作等现实场景中进行推理、工具使用和任务执行。Qwen2.5-VL 提供三种尺寸,满足从边缘人工智能到高性能计算的各种用例。旗舰模型 Qwen2.5-VL-72B 与 GPT-4o 和 Claude 3.5 Sonnet 等最先进的模型相媲美,尤其是在文档和图表理解方面表现出色。此外,Qwen2.5-VL 保持了强大的语言性能,保留了 Qwen2.5 大型语言模型的核心语言能力。
查看 arXiv 页面查看 PDF

评论

shuai baishuai bai
论文作者
论文提交者
Qwen2.5-VL 技术报告

head.jpg

Aurélien-Morgan CLAUDONAurélien-Morgan CLAUDON

你们真的超越了人群

ServeurpersoServeurperso

喜欢它!

Pramit ChoudharyPramit Choudhary

使用边界框进行精确的对象定位应该非常有帮助。干得漂亮,伙计们!

leoleo
此评论已隐藏。
Jie HuangJie Huang
此评论已隐藏。