PaddleOCR-VL:通过 0.9B 超紧凑型视觉-语言模型提升多语言文档解析能力

发表
taesiritaesiri 提交
作者: cuichengCheng Cui, Ting SunTing Sun, lsySuyin Liang, Tingquan GaoTingquan Gao, Zelun Zhang, Jiaxuan LiuJiaxuan Liu, Xueqing Wang, chagndazhouChangda Zhou, LiuHongen Liu, Manhui LinManhui Lin, Yue ZhangYue Zhang, yuboYubo Zhang, Handong Zheng, AlexZhangJing Zhang, Jun ZhangJun Zhang, Yi LiuYi Liu, Dianhai Yu, Yanjun Ma

摘要

AI 生成总结
PaddleOCR-VL 是一种视觉语言模型,结合了 NaViT 风格的视觉编码器和 ERNIE-4.5 语言模型,以最小的资源消耗在文档解析方面取得了最先进的性能。
在本报告中,我们提出了 PaddleOCR-VL,一个针对文档解析的 SOTA(State-of-the-Art)且资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,一个紧凑而强大的视觉语言模型(VLM),它集成了 NaViT 风格的动态分辨率视觉编码器和 ERNIE-4.5-0.3B 语言模型,以实现准确的元素识别。这个创新模型有效地支持 109 种语言,并在识别复杂元素(例如文本、表格、公式和图表)方面表现出色,同时保持最低的资源消耗。通过在广泛使用的公共基准和内部基准上进行全面的评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均取得了 SOTA 性能。它显著优于现有解决方案,与顶级 VLM 相比具有很强的竞争力,并提供快速的推理速度。这些优势使其非常适合在实际场景中部署。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

在本报告中,我们提出了 PaddleOCR-VL,一个针对文档解析的 SOTA 且资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,一个紧凑而强大的视觉语言模型 (VLM),它集成了 NaViT 风格的动态分辨率视觉编码器和 ERNIE-4.5-0.3B 语言模型,以实现准确的元素识别。这个创新的模型有效地支持 109 种语言,并在识别复杂元素(例如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。通过在广泛使用的公共基准和内部基准上的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均取得了 SOTA 性能。它显著优于现有解决方案,与顶级 VLM 相比具有很强的竞争力,并提供快速的推理速度。这些优点使其非常适合在实际场景中部署。

Ayoub NikravanAyoub Nikravan

IMG-20251017-WA0008

zhang wanzhang wan
此评论已隐藏。