仿生人会梦见电子羊吗?:类人图像蕴含理解与推理框架

发表
Chenhao(Leo) ZhangChenhao(Leo) Zhang 提交
作者: Chenhao(Leo) ZhangChenhao Zhang, Yazhe Niu

摘要

图像中的隐喻理解仍然是人工智能系统面临的关键挑战,因为现有模型难以掌握视觉内容中蕴含的细微文化、情感和语境含义。虽然多模态大型语言模型 (MLLMs) 在基本视觉问答 (VQA) 任务上表现出色,但它们在图像含义理解任务上存在一个根本限制:语境空白,模糊了不同视觉元素与其抽象意义之间的关系。受人类认知过程启发,我们提出了 Let Androids Dream (LAD),一个用于图像含义理解和推理的新颖框架。LAD 通过三阶段框架解决语境缺失问题:(1) 感知:将视觉信息转换为丰富且多层次的文本表示,(2) 搜索:迭代搜索和整合跨领域知识以解决歧义,(3) 推理:通过显式推理生成与语境对齐的图像含义。我们的框架结合轻量级 GPT-4o-mini 模型,在英语图像含义基准测试中,与 15 个以上的 MLLMs 相比,取得了 SOTA 性能;在中文基准测试中取得了巨大改进,在多项选择题 (MCQ) 上与 GPT-4o 模型表现相当,在开放式问题 (OSQ) 上表现优于 36.7%。此外,我们的工作为 AI 如何更有效地解释图像含义提供了新见解,推动了视觉语言推理和人机交互领域的发展。我们的项目可在 https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep 公开获取。
查看 arXiv 页面查看 PDF

评论

Chenhao(Leo) ZhangChenhao(Leo) Zhang
论文作者
论文提交者

图像中的隐喻理解仍然是人工智能系统面临的一个严峻挑战,因为现有模型难以把握视觉内容中蕴含的微妙文化、情感和情境含义。虽然多模态大型语言模型 (MLLM) 在基础的视觉问答 (VQA) 任务上表现出色,但它们在图像含义理解任务上存在一个根本性限制:情境上的缺失模糊了不同视觉元素与其抽象含义之间的关系。受人类认知过程的启发,我们提出了 Let Androids Dream (LAD),这是一个用于图像含义理解和推理的新颖框架。LAD 通过以下三阶段框架解决情境缺失问题:(1) 感知 (Perception):将视觉信息转化为丰富且多层次的文本表示;(2) 搜索 (Search):迭代搜索和整合跨领域知识以解决歧义;(3) 推理 (Reasoning):通过显式推理生成与情境对齐的图像含义。我们的框架结合轻量级 GPT-4o-mini 模型,在英文图像含义基准测试中与 15+ 个 MLLM 相比,取得了 SOTA(State-of-the-Art,当前最佳)性能,并在中文基准测试中实现了巨大提升,在多项选择题 (MCQ) 上与 GPT-4o 模型表现相当,在开放式问题 (OSQ) 上超出 36.7%。此外,我们的工作为 AI 如何更有效地解释图像含义提供了新见解,推动了视觉-语言推理和人机交互领域的发展。我们的项目已公开,地址为 https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep。

Chenhao(Leo) ZhangChenhao(Leo) Zhang
论文作者
论文提交者

Example.png

Method.png

Full_results.png