⏶77
使用图像进行多模态推理的思考:基础、方法和未来前沿
发表
由
Zhaochen Su 提交

作者:
Zhaochen Su,
Peng Xia, Hangyu Guo, Zhenhua Liu,
Yan Ma,
Xiaoye Qu,
Jiaqi Liu, Yanshu Li, Kaide Zeng, Zhengyuan Yang, Linjie Li, Yu Cheng, Heng Ji, Junxian He, Yi R. Fung



摘要
多模态推理的最新进展已经由文本思维链 (CoT) 显著推动,这是一种模型在语言中进行推理的范式。 然而,这种以文本为中心的方法将视觉视为静态的初始上下文,从而在丰富的感知数据和离散的符号思想之间产生了根本的“语义鸿沟”。 人类认知通常超越语言,将视觉用作动态的心智草稿。 类似的演变现在正在人工智能领域展开,标志着从仅仅思考图像的模型到真正可以与图像思考的模型发生了根本性的范式转变。 这种新兴的范式以模型利用视觉信息作为其思考过程的中间步骤为特征,从而将视觉从被动输入转变为动态、可操作的认知工作空间。 在本调查中,我们沿着认知自主性不断提高的轨迹绘制了这种智能的演变,该演变贯穿三个关键阶段:从外部工具探索、到程序化操作,再到内在想象。 为了构建这个快速发展的领域,我们的调查做出了四个关键贡献。 (1) 我们确立了图像思维范式及其三阶段框架的基本原则。 (2) 我们全面回顾了构成该路线图每个阶段核心方法。 (3) 我们分析了评估基准和变革性应用的关键格局。 (4) 我们指出了重大挑战并概述了有希望的未来方向。 通过提供这种结构化的概述,我们旨在为未来研究提供明确的路线图,以实现更强大和更符合人类的多模态人工智能。
评论

论文作者
论文提交者
Twitter: https://x.com/SuZhaochen0110/status/1940251163166986333
Github: https://github.com/zhaochen0110/Awesome_Think_With_Images
这项综述为“图像思考”范式提供了一个基础框架,该范式超越了静态视觉感知,转向主动、多步的视觉推理。该综述将该领域组织为三个阶段的演变,认知自主性逐渐增强:从利用外部工具,到以编程方式生成视觉操作,最后到执行内在的视觉想象。通过系统地分析与每个阶段相关的核心方法、应用和挑战,这项工作旨在为开发下一代多模态人工智能提供路线图。