先解释后回答:一种关于组合视觉推理的调查

发表
ControlNetControlNet 提交
作者: Fucai KeFucai Ke, Joy Hsu, ControlNetZhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi

摘要

组合式视觉推理已成为多模态人工智能的一个关键研究前沿,旨在赋予机器类似于人类的能力,能够分解视觉场景、对中间概念进行定位,并执行多步逻辑推理。尽管早期的综述侧重于单一的视觉语言模型或通用的多模态推理,但对快速扩张的组合式视觉推理文献进行专门的综合性论述仍然缺失。我们通过一项涵盖 2023 年至 2025 年的全面调查来填补这一空白,该调查系统地回顾了来自顶级会议(CVPR、ICCV、NeurIPS、ICML、ACL 等)的 260 多篇论文。我们首先对核心定义进行形式化,并阐述为什么组合式方法在认知对齐、语义保真度、鲁棒性、可解释性和数据效率方面具有优势。接下来,我们追溯了五个阶段的范式转变:从提示增强的以语言为中心的管道,到工具增强的 LLM 和工具增强的 VLM,再到最近出现的思维链推理和统一的代理式 VLM,并重点介绍了它们的设计架构、优点和局限性。然后,我们 catalog 了 60 多个基准测试和相应的指标,这些基准测试和指标沿着诸如定位准确性、思维链忠实度和高分辨率感知等维度来探究组合式视觉推理。基于这些分析,我们提炼出关键见解,识别出开放性挑战(例如,基于 LLM 的推理的局限性、幻觉、对演绎推理的偏见、可扩展的监督、工具集成和基准测试的局限性),并概述了未来方向,包括世界模型集成、人机协作推理和更丰富的评估协议。通过提供统一的分类、历史路线图和批判性展望,本综述旨在成为一个基础性的参考,并激励下一代组合式视觉推理研究。
查看 arXiv 页面查看 PDF
先解释后回答:一种关于组合视觉推理的调查
先解释后回答:一种关于组合视觉推理的调查
先解释后回答:一种关于组合视觉推理的调查
先解释后回答:一种关于组合视觉推理的调查

评论

ControlNetControlNet
论文作者
论文提交者

项目页面:https://github.com/pokerme7777/Compositional-Visual-Reasoning-Survey