Baseer: 用于阿拉伯语文档到 Markdown OCR 的视觉语言模型

发表
Khalil HennaraKhalil Hennara 提交
作者: Khalil HennaraKhalil Hennara, Muhammad HredenMuhammad Hreden, Mohamed Motasim HamedMohamed Motasim Hamed, Ahmad BastatiAhmad Bastati, Zeina AldallalZeina Aldallal, Sara Chrouf, Safwan AlModhayan

摘要

AI 生成总结
Baseer 是一种针对阿拉伯语文档 OCR 进行微调的视觉语言模型,它使用仅解码器策略和大规模数据集取得了最先进的性能,其 WER 为 0.25,优于现有解决方案。
由于阿拉伯语的书写方式连贯、字体多样、带符号以及从右到左的阅读方向,阿拉伯语文档 OCR 仍然是一项挑战性任务。虽然现代多模态大型语言模型(MLLMs)在处理高资源语言的文档理解方面取得了进步,但它们在阿拉伯语方面的表现仍然有限。在这项工作中,我们提出了 Baseer,一个专门为阿拉伯语文档 OCR 微调的视觉语言模型。Baseer 利用结合了合成和真实世界文档的大规模数据集,采用仅解码器微调策略来适配预训练的 MLLM,同时保留通用的视觉特征。我们还提出了 Misraj-DocOCR,这是一个高质量、专家验证的基准,用于严格评估阿拉伯语 OCR 系统。我们的实验表明,Baseer 的性能显著优于现有的开源和商业解决方案,实现了 0.25 的 WER,并在阿拉伯语文档 OCR 领域创下了新的最先进记录。我们的结果突显了针对通用 MLLMs 进行领域特定适配的好处,并为阿拉伯语等形态丰富的语言的高精度 OCR 奠定了坚实的基础。
查看 arXiv 页面查看 PDF

评论

Khalil HennaraKhalil Hennara
论文作者
论文提交者

由于阿拉伯语的连笔脚本、多样化的字体、变音符号和从右到左的书写方向,阿拉伯语文档 OCR 仍然是一项具有挑战性的任务。虽然现代多模态大型语言模型 (MLLM) 在高资源语言的文档理解方面取得了进展,但它们在阿拉伯语上的表现仍然有限。在这项工作中,我们提出了 Baseer,一个专门为阿拉伯语文档 OCR 微调的视觉语言模型。Baseer 利用了一个结合了合成和真实世界文档的大规模数据集,并使用一种仅解码器微调策略进行训练,以适应预训练的 MLLM 并保持通用的视觉特征。我们还提出了 Misraj-DocOCR,一个高质量、专家验证的基准,用于严格评估阿拉伯语 OCR 系统。我们的实验表明,Baseer 的性能明显优于现有的开源和商业解决方案,其词错误率 (WER) 达到了 0.25,并在阿拉伯语文档 OCR 领域树立了新的最先进水平。我们的研究结果强调了对通用 MLLM 进行领域特定适应的好处,并为像阿拉伯语这样形态丰富的语言提供了一个高精度 OCR 的强大基线。

abasmhamadabasmhamad

各位, 模型是否可以测试?

Khalil HennaraKhalil Hennara
论文作者
论文提交者

是的

abasmhamadabasmhamad

> 是的

亲爱的 Hennara,什么时候可以?如果您能通过电子邮件发送给我,我将非常感激, abdalbasitmohammed1@gmail.com

Mohammad MoatazMohammad Moataz

什么时候我们可以测试它👀

Khalil HennaraKhalil Hennara
论文作者
论文提交者

很快,“如果真主意欲”(inshallah)