⏶11
VisualPuzzles:将多模态推理评估与领域知识解耦
发表
由
Yueqi Song 提交

作者:
Yueqi Song, Tianyue Ou, Yibo Kong, Zecheng Li, Graham Neubig, Xiang Yue

摘要
当前的多模态基准通常将推理与特定领域的知识混淆,使得在非专家环境中难以分离和评估通用推理能力。为了解决这个问题,我们引入了 VisualPuzzles,这是一个以视觉推理为目标的基准,同时有意最大限度地减少对专业知识的依赖。VisualPuzzles 包含涵盖五个类别的各种问题:算法推理、类比推理、演绎推理、归纳推理和空间推理。我们问题的一个主要来源是手动翻译的中国公务员考试中的逻辑推理问题。实验表明,与 MMMU 等基准相比,VisualPuzzles 需要的特定领域知识明显更少,推理也更复杂,这使我们能够更好地评估真正的多模态推理。评估表明,最先进的多模态大型语言模型在 VisualPuzzles 上的表现始终落后于人类,并且在知识密集型基准上的出色表现并不一定转化为在以推理为重点、知识轻量级任务上的成功。此外,推理增强技术(例如扩展推理计算(使用“思考”模式))在不同模型和任务类型中产生不一致的收益,并且我们观察到模型大小与性能之间没有明显的关联。我们还发现,与更侧重于知识的基准相比,模型在 VisualPuzzles 上表现出不同的推理和回答模式。VisualPuzzles 提供了一个更清晰的视角,通过它可以评估超出事实回忆和领域知识的推理能力。
在 https://neulab.github.io/VisualPuzzles/ 详细了解 VisualPuzzles。