⏶13
自动驾驶中视觉-语言-动作模型的综述
发表
由
Sicong Jiang 提交
作者:
Sicong Jiang, Zilin Huang, Kangan Qian, Ziang Luo, Tianze Zhu, Yang Zhong, Yihong Tang, Menglin Kong, Yunlong Wang, Siwen Jiao, Hao Ye, Zihao Sheng, Xin Zhao, Tuopu Wen, Zheng Fu, Sikai Chen, Kun Jiang, Diange Yang, Seongjin Choi, Lijun Sun
摘要
多模态大型语言模型(MLLM)的迅速发展为视觉-语言-动作(VLA)范式铺平了道路,该范式将视觉感知、自然语言理解和控制整合到单一策略中。自动驾驶领域的研究人员正在积极将这些方法应用于车辆领域。这类模型有望使自动驾驶汽车能够解释高级指令、推理复杂的交通场景并自主做出决策。然而,现有文献分散且正在迅速扩展。本综述首次全面概述了用于自动驾驶的VLA(VLA4AD)。我们 (i) 规范了近期工作中共享的架构构建模块,(ii) 追溯了从早期解释型到以推理为中心的VLA模型的演变,以及 (iii) 根据VLA在自动驾驶领域的进展,比较了超过20个有代表性的模型。我们还整合了现有数据集和基准,重点介绍了联合衡量驾驶安全性、准确性和解释质量的协议。最后,我们详细阐述了开放性挑战——鲁棒性、实时效率和形式化验证——并勾勒了VLA4AD的未来发展方向。本综述为推动可解释、符合社会规范的自动驾驶汽车提供了简洁而完整的参考。Github仓库地址为 https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}。
多模态大型语言模型(MLLM)的快速进展为视觉-语言-动作(VLA)范式铺平了道路,该范式将视觉感知、自然语言理解和控制集成到单一策略中。自动驾驶领域的研究人员正在积极将这些方法应用于车辆领域。这类模型有望使自动驾驶汽车能够解释高级指令、推理复杂的交通场景并做出自己的决策。然而,相关文献仍显分散且正在迅速扩展。本综述首次全面概述了用于自动驾驶的视觉-语言-动作(VLA4AD)。我们(i)形式化了近期工作中共享的架构构建块,(ii)追溯了从早期解释器到以推理为中心的 VLA 模型的演变,以及(iii)根据 VLA 在自动驾驶领域的进展比较了 20 多个代表性模型。我们还整合了现有数据集和基准,重点介绍了联合衡量驾驶安全性、准确性和解释质量的协议。最后,我们详细阐述了开放性挑战——鲁棒性、实时效率和形式化验证——并概述了 VLA4AD 的未来方向。本综述为推进可解释的、符合社会规范的自动驾驶汽车提供了简洁而完整的参考。GitHub 仓库地址为 https://github.com/JohnsonJiang1996/Awesome-VLA4AD。