MME-VideoOCR:评估多模态 LLMs 在视频场景下的 OCR 能力

发表
Yang ShiYang Shi 提交
作者: Yang ShiYang Shi, Lucy WangHuanqian Wang, Wulin Xie, Huanyao Zhang, Lijie Zhao, Yi-Fan Zhang, Xin-Feng LiXinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yuanxing Zhang, Pengfei Wan, Haotian Wang, Wenjing Yang

摘要

多模态大语言模型(MLLMs)在静态图像的光学字符识别(OCR)方面取得了相当高的准确率。然而,由于视频内容固有的运动模糊、时间变化和视觉效果等因素,它们在视频 OCR 中的效力显著降低。为了为训练实用的 MLLMs 提供更清晰的指导,我们引入了 MME-VideoOCR 基准,该基准涵盖了视频 OCR 应用场景的全面范围。MME-VideoOCR 包含 10 个任务类别,由 25 个独立任务组成,涵盖 44 个不同的场景。这些任务不仅限于文本识别,还包括对视频中文本内容的更深层次的理解和推理。该基准包含 1,464 个不同分辨率、宽高比和时长的视频,以及 2,000 个精心策划、手动标注的问答对。我们在 MME-VideoOCR 上评估了 18 个最先进的 MLLMs,发现即使是性能最好的模型(Gemini-2.5 Pro)准确率也只有 73.7%。细粒度分析表明,虽然现有 MLLMs 在相关文本包含在单帧或少数帧中的任务上表现强劲,但在有效处理需要整体视频理解的任务上能力有限。这些局限性在需要时空推理、跨帧信息整合或抵制语言先验偏差的场景中尤为明显。我们的发现还强调了高分辨率视觉输入和足够的时间覆盖对于动态视频场景中可靠 OCR 的重要性。
查看 arXiv 页面查看 PDF

评论

Yang ShiYang Shi
论文作者
论文提交者

MME-VideoOCR: 评估多模态大语言模型在视频场景下的 OCR 能力