感知、推理、思考与规划:大型多模态推理模型的综述

发表
ZhenyuLiuZhenyuLiu 提交
作者: Yunxin LiYunxin Li, ZhenyuLiuZhenyu Liu, Zitao LiZitao Li, xuanyuXuanyu Zhang, Zhenran XuZhenran Xu, YuXinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong WangXintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang

摘要

推理是智能的核心,塑造了决策、得出结论以及在不同领域进行泛化的能力。在人工智能领域,随着系统越来越多地在开放、不确定和多模态环境中运行,推理对于实现鲁棒和自适应的行为至关重要。大型多模态推理模型(LMRMs)已成为一种有前景的范式,它们集成了文本、图像、音频和视频等模态,以支持复杂的推理能力,并旨在实现全面的感知、精确的理解和深入的推理。随着研究的进展,多模态推理已从模块化、感知驱动的流水线迅速发展为统一的、以语言为中心的框架,这些框架提供了更连贯的跨模态理解。虽然指令微调和强化学习提高了模型的推理能力,但在全模态泛化、推理深度和智能体行为方面仍存在重大挑战。为了解决这些问题,我们对多模态推理研究进行了全面而系统的综述,该综述围绕着反映该领域不断变化的设计理念和新兴能力的四阶段发展路线图展开。首先,我们回顾了基于特定任务模块的早期工作,其中推理隐式地嵌入在表示、对齐和融合的各个阶段。接下来,我们考察了将推理统一到多模态 LLM 中的近期方法,多模态思维链(MCoT)和多模态强化学习等进展使得更丰富、结构更清晰的推理链成为可能。最后,借鉴具有挑战性的基准测试以及 OpenAI O3 和 O4-mini 实验案例的实证见解,我们讨论了原生大型多模态推理模型(N-LMRMs)的概念方向,其目标是在复杂、现实世界的环境中支持可扩展、智能体式和自适应的推理和规划。
查看 arXiv 页面查看 PDF

评论

ZhenyuLiuZhenyuLiu
论文作者
论文提交者

项目主页:https://github.com/HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models