CogVLA:通过指令驱动的路由与稀疏化实现认知对齐的视觉-语言-动作模型

发表
taesiritaesiri 提交
作者: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie

摘要

最近基于预训练视觉语言模型(VLMs)的视觉-语言-动作(VLA)模型需要大量的后期训练,导致计算开销很高,限制了可扩展性和部署。我们提出了CogVLA,一个认知对齐的视觉-语言-动作框架,它利用指令驱动的路由和稀疏化来提高效率和性能。CogVLA从人类多模态协调中汲取灵感,并引入了一个三阶段渐进式架构。1)基于Encoder-FiLM的聚合路由(EFA-Routing)将指令信息注入视觉编码器,以选择性地聚合和压缩双流视觉令牌,形成指令感知的潜在表示。2)在此紧凑的视觉编码基础上,基于LLM-FiLM的修剪路由(LFP-Routing)通过修剪指令不相关的视觉基础令牌将动作意图引入语言模型,从而实现令牌级别的稀疏性。3)为了确保压缩的感知输入仍然能够支持准确连贯的动作生成,我们引入了视觉-语言-动作耦合注意力(CAtten),它结合了因果视觉-语言注意力和双向动作并行解码。在LIBERO基准和真实机器人任务上的大量实验表明,CogVLA在成功率分别为97.4%和70.0%的情况下取得了最先进的性能,同时与OpenVLA相比,训练成本降低了2.5倍,推理延迟降低了2.8倍。CogVLA是开源的,可在https://github.com/JiuTian-VL/CogVLA获取。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 最近基于预训练的视觉语言模型 (VLMs) 构建的视觉-语言-动作 (VLA) 模型需要大量的后训练,导致高计算开销,限制了可扩展性。本文提出了 CogVLA,一个认知对齐的视觉-语言-动作框架,它利用指令驱动的路由和稀疏化来提高效率和性能。CogVLA 从人类多模态协调中汲取灵感,并引入了一个三阶段渐进式架构。1) 基于 Encoder-FiLM 的聚合路由 (EFA-Routing) 将指令信息注入视觉编码器,以选择性地聚合和压缩双流视觉 token,形成一个指令感知的潜在表示。2) 在此紧凑的视觉编码基础上,基于 LLM-FiLM 的剪枝路由 (LFP-Routing) 通过剪枝指令无关的视觉基础 token 将动作意图引入语言模型,从而实现 token 级别的稀疏性。3) 为确保压缩的感知输入仍然能够支持准确连贯的动作生成,我们引入了 V-L-A 耦合注意力 (CAtten),它结合了因果视觉-语言注意力和双向动作并行解码。在 LIBERO 基准和真实机器人任务上的广泛实验表明,CogVLA 实现了最先进的性能,成功率分别为 97.4% 和 70.0%,同时与 OpenVLA 相比,训练成本降低了 2.5 倍,推理延迟降低了 2.8 倍。