QARI-OCR: 通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别

发表
Omartificial Intelligence SpaceOmartificial Intelligence Space 提交
作者: Ahmed WasfyAhmed Wasfy, Omartificial Intelligence SpaceOmer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar ElshehyOmar Elshehy, Adel AmmarAdel Ammar, Wadii BoulilaWadii Boulila

摘要

阿拉伯语文字固有的复杂性,其草书性质、音符(tashkeel)和多样的字体,对光学字符识别(OCR)构成了持续的挑战。我们提出了 Qari-OCR,这是一系列源自 Qwen2-VL-2B-Instruct 的视觉-语言模型,通过在专业合成数据集上进行迭代微调,逐步针对阿拉伯语进行了优化。我们的主导模型 QARI v0.2,在富含音符的文本上,实现了 0.160 的词错误率(WER)、0.061 的字符错误率(CER)和 0.737 的 BLEU 分数,树立了新的开源技术标杆。Qari-OCR 在处理 tashkeel、多种字体和文档布局方面表现出色,并在低分辨率图像上取得了令人印象深刻的性能。进一步的探索(QARI v0.3)展示了其在结构化文档理解和手写文本方面的强大潜力。这项工作显著提高了阿拉伯语 OCR 的准确性和效率,所有模型和数据集均已发布,以促进进一步的研究。
查看 arXiv 页面查看 PDF

评论

Omartificial Intelligence SpaceOmartificial Intelligence Space
论文作者
论文提交者
QARI-OCR:通过多模态大型语言模型自适应实现高保真阿拉伯语文本识别

QARI-OCR 是一个最先进的阿拉伯语 OCR 系统,基于视觉-语言模型 Qwen2-VL-2B-Instruct 进行了微调。通过针对大规模合成数据集的训练,它在转录印刷体、带发音符号的文本和手写阿拉伯语文本方面取得了前所未有的准确性。QARI-OCR 是开源的,为阿拉伯语文本识别和文档布局理解设定了新的基准。


🧠 主要亮点
  • 最先进的准确性

    • 字符错误率 (CER):0.061
    • 词错误率 (WER):0.160
    • BLEU 分数:0.737
  • 多模态大型语言模型微调

    • 基于 Qwen2-VL-2B-Instruct 构建
    • 针对带有发音符号、连字和古典书体的阿拉伯语进行了增强
  • 对文档复杂性具有鲁棒性

    • 混合布局、各种字体、质量受损的扫描件和手写文本

🚀 模型版本
版本 重点 数据集大小 发音符号 布局感知 手写识别
v0.1 清晰文本,5 种字体,无发音符号 5,000
v0.2 带发音符号/古典文本,10 种字体 50,000
v0.3 真实布局,混合大小,手写识别 10,000

📊 性能(200 页测试集)
模型 CER ↓ WER ↓ BLEU ↑
Tesseract 0.436 0.889 0.108
EasyOCR 0.791 0.918 0.051
Mistral OCR 0.210 0.570 0.440
AIN 0.640 0.210 0.830
QARI v0.2 0.061 0.160 0.737
QARI v0.3 0.300 0.545 0.485

📁 特性
  • ✅ 发音符号识别 (fathah, kasrah, dammah, sukun, shadda, tanwin)

  • ✅ 字体多样性(12+ 种阿拉伯语字体)

  • ✅ 带有 HTML 标签重建的布局解析 (v0.3)

  • ✅ 手写文本识别 (v0.3)

  • ✅ 对模糊、噪声和低分辨率扫描件具有鲁棒性

  • ✅ 所有模型和数据集均开源


🏗️ 管道概述
数据集生成
  1. 文本来源:新闻和古典阿拉伯语语料库

  2. 渲染:HTML → PDF → 图像

  3. 降质:清晰、中等和重度噪声

  4. 标注:与精确的真实值配对

模型训练
  • 骨干网络:Qwen2-VL-2B-Instruct

  • 微调:LoRA 适配器(4 比特)、PEFT、Unsloth

  • 框架:Hugging Face trl + SFTTrainer

  • 训练规格

    • 1 个 epoch,AdamW 优化器(学习率=2e-4),48GB A6000 GPU

🔬 量化影响
模型 精度 CER ↓ WER ↓ BLEU ↑
QARI v0.2 8 比特 0.091 0.255 0.583
QARI v0.2 4 比特 3.452 4.516 0.001
QARI v0.3 8 比特 0.133 0.353 0.472
QARI v0.3 4 比特 3.228 6.428 0.001

> ⚠️ 为获得最佳准确性,请使用 8 比特量化。不建议对需要精细识别的 OCR 任务使用 4 比特量化。


📚 资源

⚠️ 局限性
  • 对密集文本或窄行距表现不佳

  • 对图表和嵌入数字的识别有限

  • 外围元素(如页边距/页码)有时会被跳过


🧾 引用

```bibtex

@article{wasfy2025qari,

title={QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation},

author={Ahmed Wasfy and Omer Nacar and Abdelakreem Elkhateb and Mahmoud Reda and Omar Elshehy and Adel Ammar and Wadii Boulila},

journal={arXiv preprint arXiv:2506.02295},

year={2025}

}

```