Ovis2.5 技术报告

发表
Shiyin LuShiyin Lu 提交
作者: Shiyin LuShiyin Lu, Yang Li, RainingXYYu Xia, Yuwei Hu, zssShanshan Zhao, Yanqing Ma, Zhichao weiZhichao Wei, Yinglun LiYinglun Li, Lunhao DuanLunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, WANYING CHENWanying Chen, TjunkeJunke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo ChenQing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

摘要

我们推出了 Ovis2.5,它是 Ovis2 的继任者,专为原生分辨率视觉感知和强大的多模态推理而设计。Ovis2.5 集成了一个原生分辨率视觉 Transformer,可以以其原生、可变的分辨率处理图像,避免了固定分辨率平铺导致的质量下降,并保留了精细细节和全局布局——这对于复杂图表等视觉密集型内容至关重要。为了加强推理能力,我们训练模型超越线性思维链,进行反思——包括自检和修正。这种高级功能在推理时可作为可选的“思考模式”公开,允许用户在困难输入上牺牲延迟以提高准确性。该模型通过一个全面的五阶段课程进行训练,逐步构建其技能。该过程从基础视觉和多模态预训练开始,通过大规模指令调优推进,最终使用 DPO 和 GRPO 进行对齐和推理增强。为了高效地扩展这些升级,我们采用了多模态数据打包和混合并行化,从而实现了显著的端到端加速。我们发布了两款开源模型:Ovis2.5-9B 和 Ovis2.5-2B。后者延续了 Ovis2 的“小模型,大性能”理念,使其成为资源受限、设备上场景的理想选择。在 OpenCompass 多模态排行榜上,Ovis2.5-9B 平均得分 78.3,比其前身 Ovis2-8B 有了显著提高,并在参数范围低于 40B 的开源 MLLM 中取得了最先进的成果;Ovis2.5-2B 得分 73.9,确立了其尺寸的 SOTA。除了综合得分,Ovis2.5 在 STEM 基准测试中取得了领先成果,在接地和视频任务中表现出强大的能力,并在其规模的复杂图表分析中取得了开源 SOTA。
查看 arXiv 页面查看 PDF

评论

Shiyin LuShiyin Lu
论文作者
论文提交者
  • Github: github.com/AIDC-AI/Ovis

  • 9B 模型: huggingface.co/AIDC-AI/Ovis2.5-9B

  • 2B 模型: huggingface.co/AIDC-AI/Ovis2.5-2B

  • 9B 演示: huggingface.co/spaces/AIDC-AI/Ovis2.5-9B

  • 2B 演示: huggingface.co/spaces/AIDC-AI/Ovis2.5-2B

Yinglun LiYinglun Li
论文作者

感谢你们的巨大努力 xD