⏶102
MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉语言模型
发表
由
taesiri 提交

作者: Junbo Niu,
Zheng Liu,
Zhuangcheng Gu,
Bin Wang,
Linke Ouyang, Zhiyuan Zhao, Tao Chu,
Tianyao He, Fan Wu, Qintong Zhang, Zhenjiang Jin, Guang Liang, Rui Zhang, Wenzheng Zhang, Yuan Qu, Zhifei Ren,
Yuefeng Sun, Yuanhong Zheng, Dongsheng Ma, Zirui Tang, Boyu Niu, Ziyang Miao, Hejun Dong, Siyi Qian, Junyuan Zhang, Jingzhou Chen, Fangdong Wang,
Xiaomeng Zhao, Liqun Wei, Wei Li, Shasha Wang, Ruiliang Xu, Yuanyuan Cao, Lu Chen, Qianqian Wu, Huaiyu Gu, Lindong Lu, Keming Wang, Dechen Lin, Guanlin Shen, Xuanhe Zhou, Linfeng Zhang,
Yuhang Zang, Xiaoyi Dong,
Jiaqi Wang, Bo Zhang, Lei Bai,
Pei Chu, Weijia Li, Jiang Wu,
Lijun Wu, Zhenxiang Li, Guangyu Wang, Zhongying Tu, Chao Xu, Kai Chen, Yu Qiao, Bowen Zhou, Dahua Lin, Wentao Zhang, Conghui He






摘要
AI 生成总结
MinerU2.5 是一个 1.2B 参数的文档解析视觉语言模型,通过粗到细的解析策略实现了最先进的识别精度和计算效率。我们介绍了 MinerU2.5,这是一个 12 亿参数的文档解析视觉语言模型,它实现了最先进的识别精度,同时保持了卓越的计算效率。我们的方法采用粗到细的两阶段解析策略,将全局布局分析与局部内容识别分离。在第一阶段,模型在下采样图像上执行高效的布局分析以识别结构元素,从而避免了处理高分辨率输入的计算开销。在第二阶段,在全局布局的指导下,它在从原始图像提取的原分辨率作物上执行目标内容识别,保留了密集文本、复杂公式和表格中的细粒度细节。为了支持这种策略,我们开发了一个全面的数据引擎,该引擎为预训练和微调生成多样化的大规模训练语料库。最终,MinerU2.5 展现了强大的文档解析能力,在多个基准上取得了最先进的性能,在各种识别任务中超越了通用和领域特定模型,同时保持了显著更低的计算开销。
我们推出 MinerU2.5,一个 1.2B 参数的文档解析视觉语言模型,在保持卓越计算效率的同时实现了最先进的识别准确率。我们的方法采用粗到精的两阶段解析策略,将全局布局分析与局部内容识别分离开来。在第一阶段,模型在下采样图像上执行高效布局分析以识别结构元素,避免了处理高分辨率输入的计算开销。在第二阶段,在全局布局的指导下,它对从原始图像提取的原生分辨率裁剪图像执行有针对性的内容识别,保留了密集文本、复杂公式和表格中的细粒度细节。为了支持此策略,我们开发了一个全面的数据引擎,为预训练和微调生成多样化的大规模训练语料库。最终,MinerU2.5 展示了强大的文档解析能力,在多个基准测试中取得了最先进的性能,在各种识别任务中超越了通用和领域特定的模型,同时保持了显著更低的计算开销。