⏶54
当可视化是推理的第一步:MIRA,一个视觉思维链基准
发表
由
Yiyang Zhou 提交
作者: Yiyang Zhou, Haoqin Tu, Zijun Wang, Zeyu Wang, Niklas Muennighoff, Fan Nie, Yejin Choi, James Zou, Chaorui Deng, Shen Yan, Haoqi Fan, Cihang Xie, Huaxiu Yao, Qinghao Ye
摘要
AI 生成总结
MIRA 是一个基准,它使用中间视觉图像来评估模型,以增强推理能力,与纯文本方法相比,显示出显著的性能改进。我们提出了 MIRA,一个旨在评估模型在生成中间视觉图像对于成功推理至关重要的场景中的新基准。与仅依赖文本的传统 CoT 方法不同,MIRA 中的任务要求模型生成和利用中间图像——例如草图、结构图或路径图——来指导其推理过程。这种设置与人类通过“边画边思考”解决复杂问题的方式非常相似。为了解决这个问题,MIRA 专注于本质上具有挑战性且涉及复杂结构、空间关系或难以仅通过语言表达的推理步骤的任务。为确保评估数据质量高,我们收录了 546 个多模态问题,并附带中间视觉图像和最终答案。我们还提出了一种统一的 MIRA 评估协议,涵盖三个评估输入级别:仅包含图像和问题的直接输入,仅包含图像和思维提示的文本 CoT 输入,以及包含注释图像线索和文本思维提示的 Visual-CoT 输入。为了探究模型在此基准上的容量上限,我们还报告了不同 k 设置下的 pass@k 和多数投票准确率。实验结果表明,现有多模态大型语言模型,包括最强的私有模型和强大的开源模型,在仅依赖文本提示时表现不佳。然而,当提供中间视觉线索时,模型性能持续提高,所有模型和任务的平均相对增益为 33.7%。我们还通过扩展搜索空间和设计与 Visual-CoT 对齐的文本提示来探究上限,但与我们的 Visual-CoT 设置相比,两者仅带来有限的改进。这些结果强调了想象中的视觉信息在 MIRA 上实现成功推理的关键作用。
我们提出了MIRA,一个新的基准,旨在评估模型在生成中间视觉图像对于成功推理至关重要的场景中的能力。与仅依赖文本的传统CoT方法不同,MIRA中的任务要求模型生成并利用中间图像——例如草图、结构图或路径图——来指导其推理过程。这种设置密切反映了人类如何通过“通过绘图思考”来解决复杂问题。为了解决这个问题,MIRA专注于那些本质上具有挑战性、涉及复杂结构、空间关系或难以仅通过语言表达的推理步骤的任务。为了确保我们的评估数据具有高质量,我们纳入了546个多模态问题,并标注了中间视觉图像和最终答案。我们还为MIRA提出了一种统一的评估协议,涵盖了三个级别的评估输入:仅包含图像和问题的直接输入、包含图像和思考提示的纯文本CoT输入,以及同时包含标注图像线索和文本思考提示的Visual-CoT输入。为了探究模型在此基准上的容量上限,我们还在不同的k设置下报告了pass@k和多数投票准确率。实验结果表明,现有的多模态大型语言模型,包括最强的私有模型以及强大的开源模型,在仅依赖文本提示时表现不佳。然而,当提供中间视觉线索时,模型性能持续提高,所有模型和任务的平均相对增益达到33.7%。我们还通过扩展搜索空间和设计与Visual-CoT对齐的文本提示来探究上限,但与我们的Visual-CoT设置相比,两者仅带来了有限的改进。这些结果强调了想象的视觉信息在MIRA上实现成功推理的关键作用。