⏶45
ColorBench: VLMs 能否看到和理解多彩的世界?一个用于颜色感知、推理和鲁棒性的综合基准
04月10日发表
04月17日由
Tianyi Zhou 提交

作者: Yijun Liang, Ming Li,
Chenrui Fan, Ziyue Li, Dang Nguyen,
Kwesi Cobbina,
Shweta Bhardwaj,
Jiuhai Chen, Fuxiao Liu,
Tianyi Zhou

摘要
颜色在人类感知中起着重要的作用,通常在视觉推理中提供关键线索。然而,目前尚不清楚视觉语言模型 (VLMs) 是否以及如何像人类一样感知、理解和利用颜色。本文介绍了 ColorBench,这是一个创新的基准,经过精心设计,旨在评估 VLM 在颜色理解方面的能力,包括颜色感知、推理和鲁棒性。通过策划一套多样化的测试场景,并以实际应用为基础,ColorBench 评估了这些模型如何感知颜色,从基于颜色的线索中推断含义,以及在不同的颜色转换下保持一致的性能。通过对 32 个具有不同语言模型和视觉编码器的 VLM 进行广泛评估,我们的论文揭示了一些未被发现的发现:(i)缩放定律(更大的模型更好)仍然适用于 ColorBench,而语言模型比视觉编码器起着更重要的作用。(ii)然而,模型之间的性能差距相对较小,表明现有 VLM 在很大程度上忽略了颜色理解。(iii)CoT 推理提高了颜色理解的准确性和鲁棒性,尽管它们是以视觉为中心的任务。(iv)颜色线索确实被 ColorBench 上的 VLM 利用,但它们也可能在某些任务中误导模型。这些发现突显了当前 VLM 的关键局限性,并强调了增强颜色理解的必要性。我们的 ColorBench 可以作为推动多模态人工智能人类水平颜色理解研究的基础工具。
评论

论文作者
论文提交者