POINTS-Reader:用于文档转换的免蒸馏视觉语言模型自适应

发表
Yuan LiuYuan Liu 提交
作者: Yuan LiuYuan Liu, Zhongyin Zhao, Le Tian, Haicheng Wang, Xubing YeXubing Ye, Yangxiu You, Zilin Yu, Chuhan Wu, Xiao Zhou, Yang Yu, Jie Zhou

摘要

高质量的标注数据对于训练准确的文档转换模型至关重要,尤其是在处理表格、公式和多栏文本等复杂格式的领域。然而,手动标注既昂贵又耗时,而使用现有模型进行自动标注在处理这些挑战性场景时往往缺乏准确性。因此,通过蒸馏教师模型的输出来训练学生模型会显著限制其在实际应用中的性能。在本文中,我们提出了一个包含两个阶段的全自动化、无蒸馏框架,用于构建能够处理多样化文档格式和布局的高质量文档提取数据集和模型。在第一阶段,我们介绍了一种生成大规模、多样化合成数据的方法,使模型能够以统一的格式提取关键元素,并获得强大的初始性能。在第二阶段,我们提出了一种自我改进方法,进一步将最初在合成数据上训练的模型适应到真实世界文档。具体来说,我们首先使用微调后的模型来标注真实文档,然后应用一套过滤策略来验证标注质量,最后在验证后的数据集上重新训练模型。通过反复重复此过程,我们逐步增强了模型的转换能力和生成数据的质量。我们训练了一个公开的POINTS-1.5模型以获得POINTS-Reader,其性能超越了许多同等或更大规模的现有公共和专有模型。我们的模型可在https://github.com/Tencent/POINTS-Reader获取。
查看 arXiv 页面查看 PDF

评论

Yuan LiuYuan Liu
论文作者
论文提交者

一个强大的视觉-语言模型,用于端到端文档转换

Adina YakefuAdina Yakefu

你好 @YuanLiuuuuuu - 感谢分享!如果您能在页面上点击您的名字来认领您的论文,那就太好了。

Yuan LiuYuan Liu
论文作者
论文提交者

感谢您的建议!我已经认领了这篇论文。