MangaVQA 和 MangaLMM:面向多模态漫画理解的基准与专用模型

发表
Atsuyuki MiyaiAtsuyuki Miyai 提交
作者: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki MiyaiAtsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa

摘要

漫画(即日本漫画)是一种丰富的多模态叙事形式,以复杂的方式融合了图像和文本。训练大型多模态模型(LMMs)以类人水平理解这类叙事,可以帮助漫画创作者反思和完善他们的故事。为此,我们引入了两个用于多模态漫画理解的基准:MangaOCR,旨在进行页面内文本识别;以及 MangaVQA,一个用于通过视觉问答评估上下文理解能力的新型基准。MangaVQA 包含 526 对高质量、人工构建的问答对,可以在多样化的叙事和视觉场景中实现可靠的评估。基于这些基准,我们开发了 MangaLMM,这是一个从开源 LMM Qwen2.5-VL 微调而来的漫画专用模型,能够联合处理这两项任务。通过大量实验,包括与 GPT-4o 和 Gemini 2.5 等专有模型的比较,我们评估了 LMMs 理解漫画的程度。我们的基准和模型为在漫画这一丰富的叙事领域评估和推进 LMMs 提供了全面的基础。
查看 arXiv 页面查看 PDF

评论

Atsuyuki MiyaiAtsuyuki Miyai
论文作者
论文提交者

我们对 AGI 的愿景不同于社区主流。是的,我们的目标是构建一个超人类的 AI 漫画助手 🎨🤖。作为第一步,我们的团队开发了 MangaLMM,这是一个既能解决 MangaOCR 又能解决我们新创建的 MangaVQA 任务的 LMM!