⏶123

Baseer: 用于阿拉伯语文档到 Markdown OCR 的视觉语言模型

09月17日发表

09月24日由 Khalil Hennara 提交

作者: Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, Ahmad Bastati, Zeina Aldallal, Sara Chrouf, Safwan AlModhayan

摘要

AI 生成总结

Baseer 是一种针对阿拉伯语文档 OCR 进行微调的视觉语言模型，它使用仅解码器策略和大规模数据集取得了最先进的性能，其 WER 为 0.25，优于现有解决方案。

由于阿拉伯语的书写方式连贯、字体多样、带符号以及从右到左的阅读方向，阿拉伯语文档 OCR 仍然是一项挑战性任务。虽然现代多模态大型语言模型（MLLMs）在处理高资源语言的文档理解方面取得了进步，但它们在阿拉伯语方面的表现仍然有限。在这项工作中，我们提出了 Baseer，一个专门为阿拉伯语文档 OCR 微调的视觉语言模型。Baseer 利用结合了合成和真实世界文档的大规模数据集，采用仅解码器微调策略来适配预训练的 MLLM，同时保留通用的视觉特征。我们还提出了 Misraj-DocOCR，这是一个高质量、专家验证的基准，用于严格评估阿拉伯语 OCR 系统。我们的实验表明，Baseer 的性能显著优于现有的开源和商业解决方案，实现了 0.25 的 WER，并在阿拉伯语文档 OCR 领域创下了新的最先进记录。我们的结果突显了针对通用 MLLMs 进行领域特定适配的好处，并为阿拉伯语等形态丰富的语言的高精度 OCR 奠定了坚实的基础。

查看 arXiv 页面查看 PDF

Khalil Hennara

论文作者

论文提交者

由于阿拉伯语的连笔脚本、多样化的字体、变音符号和从右到左的书写方向，阿拉伯语文档 OCR 仍然是一项具有挑战性的任务。虽然现代多模态大型语言模型 (MLLM) 在高资源语言的文档理解方面取得了进展，但它们在阿拉伯语上的表现仍然有限。在这项工作中，我们提出了 Baseer，一个专门为阿拉伯语文档 OCR 微调的视觉语言模型。Baseer 利用了一个结合了合成和真实世界文档的大规模数据集，并使用一种仅解码器微调策略进行训练，以适应预训练的 MLLM 并保持通用的视觉特征。我们还提出了 Misraj-DocOCR，一个高质量、专家验证的基准，用于严格评估阿拉伯语 OCR 系统。我们的实验表明，Baseer 的性能明显优于现有的开源和商业解决方案，其词错误率 (WER) 达到了 0.25，并在阿拉伯语文档 OCR 领域树立了新的最先进水平。我们的研究结果强调了对通用 MLLM 进行领域特定适应的好处，并为像阿拉伯语这样形态丰富的语言提供了一个高精度 OCR 的强大基线。

abasmhamad

各位，模型是否可以测试？

Khalil Hennara

论文作者

论文提交者

是的

abasmhamad

> 是的

亲爱的 Hennara，什么时候可以？如果您能通过电子邮件发送给我，我将非常感激， abdalbasitmohammed1@gmail.com

Mohammad Moataz

什么时候我们可以测试它👀

Khalil Hennara

论文作者

论文提交者

很快，“如果真主意欲”（inshallah）

Baseer: 用于阿拉伯语文档到 Markdown OCR 的视觉语言模型

摘要

评论