被谜题困扰:当视觉-语言模型无法领会提示时

发表
David ChanDavid Chan 提交
作者: Heekyung Lee, Jiaxin Ge, Patrick (Tsung-Han) WuTsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan

摘要

字谜(Rebus puzzles)是一种视觉谜题,通过图像、空间排列和符号替代来编码语言,这对当前的视觉语言模型(VLMs)构成了独特的挑战。与传统的图像标注或问答任务不同,解决字谜需要多模态抽象、符号推理以及对文化、语音和语言双关语的理解。在本文中,我们通过构建一个手工生成和标注的多样化英语字谜基准测试, ranging from simple pictographic substitutions to spatially-dependent cues ("head" over "heels"),来调查现代 VLM 解释和解决字谜的能力。我们分析了不同 VLM 的表现,研究结果显示,虽然 VLM 在解码简单的视觉线索方面展现出一些令人惊讶的能力,但在需要抽象推理、发散思维和理解视觉隐喻的任务中,它们表现出显著的困难。
查看 arXiv 页面查看 PDF

评论

David ChanDavid Chan
论文提交者

谜语画(Rebus puzzles)是一种视觉谜题,通过图像、空间排列和符号替换来编码语言,对当前的视觉-语言模型(VLMs)提出了独特的挑战。与传统的图像描述或问答任务不同,解决谜语画需要多模态抽象、符号推理以及对文化、语音和语言双关语的理解。在本文中,我们通过构建一个人工生成和标注的、包含各种英语谜语画的基准测试集,来研究当代VLM解释和解决谜语画的能力,这些谜题从简单的象形替换到依赖空间的线索(例如:"head" 在 "heels" 上方)。我们分析了不同VLM的表现,我们的研究结果表明,虽然VLM在解码简单的视觉线索方面表现出一些令人惊讶的能力,但在需要抽象推理、横向思维和理解视觉隐喻的任务上却困难重重。