视觉-语言-动作模型综述:动作标记化视角

发表
Yifan ZhongYifan Zhong 提交
作者: Yifan Zhong, Fengshuo Bai, Shaofei CaiShaofei Cai, XUCHUAN HUANGXuchuan Huang, Zhang Chen, Xiaowei Zhang, Yuanfei Wang, Shaoyang Guo, Tianrui Guan, Ka Nam Lui, Zhiquan Qi, Yitao Liang, Yuanpei Chen, Yaodong Yang

摘要

视觉和语言基础模型在多模态理解、推理和生成方面的显著进展,激发了将此类智能扩展到物理世界的日益增长的努力,推动了视觉-语言-动作(VLA)模型的蓬勃发展。尽管方法看似多样,但我们观察到当前的VLA模型可以统一在一个单一框架下:视觉和语言输入由一系列VLA模块处理,生成一系列动作令牌,这些令牌逐步编码更具体和可操作的信息,最终生成可执行动作。我们进一步确定,区分VLA模型的主要设计选择在于动作令牌的表达方式,其可分为语言描述、代码、示能、轨迹、目标状态、潜在表示、原始动作和推理。然而,目前对动作令牌缺乏全面理解,这严重阻碍了有效的VLA开发并模糊了未来的发展方向。因此,本综述旨在通过动作令牌化的视角对现有VLA研究进行分类和解读,提炼每种令牌类型的优点和局限性,并确定改进领域。通过本次系统回顾和分析,我们对VLA模型的更广泛演进提供了综合展望,强调了未充分探索但有前景的方向,并为未来的研究提供了指导,希望能将该领域推向通用智能。
查看 arXiv 页面查看 PDF

评论

Yifan ZhongYifan Zhong
论文提交者
摘要

视觉和语言基础模型在多模态理解、推理和生成方面的显著进步,激发了将此类智能扩展到物理世界的日益增长的努力,从而推动了视觉-语言-动作(VLA)模型的蓬勃发展。尽管方法看似多样,但我们观察到当前的 VLA 模型可以统一在一个单一框架下:视觉和语言输入由一系列 VLA 模块处理,生成一系列\textit{动作令牌},这些令牌逐步编码更具基础性和可操作性的信息,最终产生可执行的动作。我们进一步确定,区分 VLA 模型的主要设计选择在于动作令牌的表达方式,其可分为:语言描述、代码、示能、轨迹、目标状态、潜在表示、原始动作和推理。然而,目前对于动作令牌仍缺乏全面理解,这严重阻碍了 VLA 的有效发展并模糊了未来的方向。因此,本综述旨在通过动作令牌化的视角对现有 VLA 研究进行分类和解读,提炼每种令牌类型的优点和局限性,并找出改进领域。通过这次系统的回顾和分析,我们对 VLA 模型的更广泛演进提供了一个综合性的展望,强调了未充分探索但有前景的方向,并为未来的研究提供了指导,希望能使该领域更接近通用智能。

论文: https://arxiv.org/abs/2507.01925

Github: https://github.com/Psi-Robot/Awesome-VLA-Papers

VLA 统一框架

图 1:VLA 模型的统一框架。

动作令牌可视化

图 2:单个具身任务中动作令牌的可视化。

模型时间线

图 3:基础模型、VLA 模型和数据源的演进时间线。