⏶2
QARI-OCR: 通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别
发表
由
Omartificial Intelligence Space 提交

作者:
Ahmed Wasfy,
Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda,
Omar Elshehy,
Adel Ammar,
Wadii Boulila



摘要
阿拉伯语文字固有的复杂性,其草书性质、音符(tashkeel)和多样的字体,对光学字符识别(OCR)构成了持续的挑战。我们提出了 Qari-OCR,这是一系列源自 Qwen2-VL-2B-Instruct 的视觉-语言模型,通过在专业合成数据集上进行迭代微调,逐步针对阿拉伯语进行了优化。我们的主导模型 QARI v0.2,在富含音符的文本上,实现了 0.160 的词错误率(WER)、0.061 的字符错误率(CER)和 0.737 的 BLEU 分数,树立了新的开源技术标杆。Qari-OCR 在处理 tashkeel、多种字体和文档布局方面表现出色,并在低分辨率图像上取得了令人印象深刻的性能。进一步的探索(QARI v0.3)展示了其在结构化文档理解和手写文本方面的强大潜力。这项工作显著提高了阿拉伯语 OCR 的准确性和效率,所有模型和数据集均已发布,以促进进一步的研究。
QARI-OCR 是一个最先进的阿拉伯语 OCR 系统,基于视觉-语言模型 Qwen2-VL-2B-Instruct 进行了微调。通过针对大规模合成数据集的训练,它在转录印刷体、带发音符号的文本和手写阿拉伯语文本方面取得了前所未有的准确性。QARI-OCR 是开源的,为阿拉伯语文本识别和文档布局理解设定了新的基准。
最先进的准确性
多模态大型语言模型微调
对文档复杂性具有鲁棒性
v0.1
v0.2
v0.3
✅ 发音符号识别 (fathah, kasrah, dammah, sukun, shadda, tanwin)
✅ 字体多样性(12+ 种阿拉伯语字体)
✅ 带有 HTML 标签重建的布局解析 (v0.3)
✅ 手写文本识别 (v0.3)
✅ 对模糊、噪声和低分辨率扫描件具有鲁棒性
✅ 所有模型和数据集均开源
文本来源:新闻和古典阿拉伯语语料库
渲染:HTML → PDF → 图像
降质:清晰、中等和重度噪声
标注:与精确的真实值配对
骨干网络:Qwen2-VL-2B-Instruct
微调:LoRA 适配器(4 比特)、PEFT、Unsloth
框架:Hugging Face
trl
+SFTTrainer
训练规格:
> ⚠️ 为获得最佳准确性,请使用 8 比特量化。不建议对需要精细识别的 OCR 任务使用 4 比特量化。
🤗 Hugging Face 模型和数据:https://huggingface.co/riotu-lab/QARI-OCR
📄 论文:arXiv:2506.02295
对密集文本或窄行距表现不佳
对图表和嵌入数字的识别有限
外围元素(如页边距/页码)有时会被跳过
```bibtex
@article{wasfy2025qari,
title={QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation},
author={Ahmed Wasfy and Omer Nacar and Abdelakreem Elkhateb and Mahmoud Reda and Omar Elshehy and Adel Ammar and Wadii Boulila},
journal={arXiv preprint arXiv:2506.02295},
year={2025}
}
```