⏶70
DeepSeek-OCR:上下文光学压缩
发表
由
Elie Bakouch 提交
作者:
Haoran Wei,
Yaofeng Sun, Yukun Li
摘要
AI 生成总结
DeepSeek-OCR 使用光学 2D 映射来压缩长上下文,在减少视觉 token 的同时实现了高 OCR 精度,并在文档处理中展现了实际价值。我们提出了DeepSeek-OCR,这是对通过光学2D映射压缩长上下文可行性的初步研究。DeepSeek-OCR包含两个组件:DeepEncoder 作为核心引擎,以及DeepSeek3B-MoE-A570M 作为解码器。具体来说,DeepEncoder被设计成在高分辨率输入下保持低激活,同时实现高压缩比,以确保获得最优且可管理数量的视觉标记。实验表明,当文本标记数量不超过视觉标记数量的10倍(即压缩比小于10倍)时,模型可以实现97%的解码(OCR)精度。即使在20倍的压缩比下,OCR精度仍然保持在60%左右。这为历史长上下文压缩和LLM中的记忆遗忘机制等研究领域带来了相当大的希望。此外,DeepSeek-OCR还展现出很高的实用价值。在OmniDocBench上,它仅使用100个视觉标记就超越了GOT-OCR2.0(256个标记/页),并且在利用不到800个视觉标记的情况下,优于MinerU2.0(平均每页6000+个标记)。在生产环境中,DeepSeek-OCR每天可以生成200k+页(单A100-40G)的LLM/VLM训练数据。代码和模型权重可公开访问,网址为 http://github.com/deepseek-ai/DeepSeek-OCR。
DeepSeek OCR 论文!