⏶5

被谜题困扰：当视觉-语言模型无法领会提示时

05月29日发表

05月30日由 David Chan 提交

作者: Heekyung Lee, Jiaxin Ge, Patrick (Tsung-Han) Wu Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan

摘要

字谜（Rebus puzzles）是一种视觉谜题，通过图像、空间排列和符号替代来编码语言，这对当前的视觉语言模型（VLMs）构成了独特的挑战。与传统的图像标注或问答任务不同，解决字谜需要多模态抽象、符号推理以及对文化、语音和语言双关语的理解。在本文中，我们通过构建一个手工生成和标注的多样化英语字谜基准测试， ranging from simple pictographic substitutions to spatially-dependent cues ("head" over "heels")，来调查现代 VLM 解释和解决字谜的能力。我们分析了不同 VLM 的表现，研究结果显示，虽然 VLM 在解码简单的视觉线索方面展现出一些令人惊讶的能力，但在需要抽象推理、发散思维和理解视觉隐喻的任务中，它们表现出显著的困难。

查看 arXiv 页面查看 PDF

David Chan

论文提交者

谜语画（Rebus puzzles）是一种视觉谜题，通过图像、空间排列和符号替换来编码语言，对当前的视觉-语言模型（VLMs）提出了独特的挑战。与传统的图像描述或问答任务不同，解决谜语画需要多模态抽象、符号推理以及对文化、语音和语言双关语的理解。在本文中，我们通过构建一个人工生成和标注的、包含各种英语谜语画的基准测试集，来研究当代VLM解释和解决谜语画的能力，这些谜题从简单的象形替换到依赖空间的线索（例如："head" 在 "heels" 上方）。我们分析了不同VLM的表现，我们的研究结果表明，虽然VLM在解码简单的视觉线索方面表现出一些令人惊讶的能力，但在需要抽象推理、横向思维和理解视觉隐喻的任务上却困难重重。

被谜题困扰：当视觉-语言模型无法领会提示时

摘要

评论