⏶53
PaddleOCR-VL:通过 0.9B 超紧凑型视觉-语言模型提升多语言文档解析能力
发表
由
taesiri 提交

作者:
Cheng Cui,
Ting Sun,
Suyin Liang,
Tingquan Gao, Zelun Zhang,
Jiaxuan Liu, Xueqing Wang,
Changda Zhou,
Hongen Liu,
Manhui Lin,
Yue Zhang,
Yubo Zhang, Handong Zheng,
Jing Zhang,
Jun Zhang,
Yi Liu, Dianhai Yu, Yanjun Ma









摘要
AI 生成总结
PaddleOCR-VL 是一种视觉语言模型,结合了 NaViT 风格的视觉编码器和 ERNIE-4.5 语言模型,以最小的资源消耗在文档解析方面取得了最先进的性能。在本报告中,我们提出了 PaddleOCR-VL,一个针对文档解析的 SOTA(State-of-the-Art)且资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,一个紧凑而强大的视觉语言模型(VLM),它集成了 NaViT 风格的动态分辨率视觉编码器和 ERNIE-4.5-0.3B 语言模型,以实现准确的元素识别。这个创新模型有效地支持 109 种语言,并在识别复杂元素(例如文本、表格、公式和图表)方面表现出色,同时保持最低的资源消耗。通过在广泛使用的公共基准和内部基准上进行全面的评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均取得了 SOTA 性能。它显著优于现有解决方案,与顶级 VLM 相比具有很强的竞争力,并提供快速的推理速度。这些优势使其非常适合在实际场景中部署。
评论

在线演示:https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo
Github:https://github.com/PaddlePaddle/PaddleOCR
Hugging Face 模型:https://huggingface.co/PaddlePaddle/PaddleOCR-VL
在本报告中,我们提出了 PaddleOCR-VL,一个针对文档解析的 SOTA 且资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,一个紧凑而强大的视觉语言模型 (VLM),它集成了 NaViT 风格的动态分辨率视觉编码器和 ERNIE-4.5-0.3B 语言模型,以实现准确的元素识别。这个创新的模型有效地支持 109 种语言,并在识别复杂元素(例如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。通过在广泛使用的公共基准和内部基准上的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均取得了 SOTA 性能。它显著优于现有解决方案,与顶级 VLM 相比具有很强的竞争力,并提供快速的推理速度。这些优点使其非常适合在实际场景中部署。