⏶123
Baseer: 用于阿拉伯语文档到 Markdown OCR 的视觉语言模型
发表
由
Khalil Hennara 提交

作者:
Khalil Hennara,
Muhammad Hreden,
Mohamed Motasim Hamed,
Ahmad Bastati,
Zeina Aldallal, Sara Chrouf, Safwan AlModhayan



摘要
AI 生成总结
Baseer 是一种针对阿拉伯语文档 OCR 进行微调的视觉语言模型,它使用仅解码器策略和大规模数据集取得了最先进的性能,其 WER 为 0.25,优于现有解决方案。由于阿拉伯语的书写方式连贯、字体多样、带符号以及从右到左的阅读方向,阿拉伯语文档 OCR 仍然是一项挑战性任务。虽然现代多模态大型语言模型(MLLMs)在处理高资源语言的文档理解方面取得了进步,但它们在阿拉伯语方面的表现仍然有限。在这项工作中,我们提出了 Baseer,一个专门为阿拉伯语文档 OCR 微调的视觉语言模型。Baseer 利用结合了合成和真实世界文档的大规模数据集,采用仅解码器微调策略来适配预训练的 MLLM,同时保留通用的视觉特征。我们还提出了 Misraj-DocOCR,这是一个高质量、专家验证的基准,用于严格评估阿拉伯语 OCR 系统。我们的实验表明,Baseer 的性能显著优于现有的开源和商业解决方案,实现了 0.25 的 WER,并在阿拉伯语文档 OCR 领域创下了新的最先进记录。我们的结果突显了针对通用 MLLMs 进行领域特定适配的好处,并为阿拉伯语等形态丰富的语言的高精度 OCR 奠定了坚实的基础。
由于阿拉伯语的连笔脚本、多样化的字体、变音符号和从右到左的书写方向,阿拉伯语文档 OCR 仍然是一项具有挑战性的任务。虽然现代多模态大型语言模型 (MLLM) 在高资源语言的文档理解方面取得了进展,但它们在阿拉伯语上的表现仍然有限。在这项工作中,我们提出了 Baseer,一个专门为阿拉伯语文档 OCR 微调的视觉语言模型。Baseer 利用了一个结合了合成和真实世界文档的大规模数据集,并使用一种仅解码器微调策略进行训练,以适应预训练的 MLLM 并保持通用的视觉特征。我们还提出了 Misraj-DocOCR,一个高质量、专家验证的基准,用于严格评估阿拉伯语 OCR 系统。我们的实验表明,Baseer 的性能明显优于现有的开源和商业解决方案,其词错误率 (WER) 达到了 0.25,并在阿拉伯语文档 OCR 领域树立了新的最先进水平。我们的研究结果强调了对通用 MLLM 进行领域特定适应的好处,并为像阿拉伯语这样形态丰富的语言提供了一个高精度 OCR 的强大基线。