olmOCR 2:文档 OCR 的单元测试奖励

发表
taesiritaesiri 提交
作者: Jake Poznanski, Luca Soldaini, Kyle Lo

摘要

AI 生成总结
olmOCR 2 是一种通过强化学习和可验证奖励训练的视觉语言模型,在 OCR 任务中达到了最先进的性能,尤其在数学公式转换、表格解析和多列布局方面表现突出。
我们推出了 olmOCR 2,这是我们强大的 OCR 系统家族中的最新成员, 用于将数字化打印文档(如 PDF)转换为干净、自然排序的纯文本。 olmOCR 2 由 olmOCR-2-7B-1025 提供支持,这是一个专门的 7B 视觉语言模型(VLM),使用可验证奖励强化学习(RLVR)进行训练, 其中我们的奖励是一组多样化的二进制单元测试。为了扩展单元测试的创建, 我们开发了一个管道,用于生成具有多样化和挑战性布局、已知真实 HTML 源代码和提取测试用例的合成文档。我们表明, 对这些测试用例进行 RL 训练可在我们的英语 OCR 基准测试 olmOCR-Bench 上取得最先进的性能, 与以前的版本相比,在数学公式转换、表格解析和多列布局方面取得了最大改进。 我们以宽松的开源许可发布了我们的模型、数据和代码。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

我们推出了 olmOCR 2,这是我们功能强大的 OCR 系统家族的最新版本,用于将数字化打印文档(如 PDF)转换为干净、自然排序的纯文本。olmOCR 2 由 olmOCR-2-7B-1025 提供支持,这是一个专门的 7B 视觉语言模型(VLM),使用带有可验证奖励(RLVR)的强化学习进行训练,其中我们的奖励是一组多样化的二元单元测试。为了扩展单元测试的创建,我们开发了一个生成具有多样化和挑战性布局、已知真实 HTML 源代码和提取测试用例的合成文档的流水线。我们展示了在这些测试用例上进行的强化学习训练在我们的英语 OCR 基准测试 olmOCR-Bench 上取得了最先进的性能,与以前的版本相比,在数学公式转换、表格解析和多列布局方面取得了最大改进。我们以开放许可发布了我们的模型、数据和代码。

taesiritaesiri
论文提交者

Github: https://github.com/allenai/olmocr