EfficientVLA:面向视觉-语言-动作模型的免训练加速和压缩

发表
Zichen WenZichen Wen 提交
作者: Yantai Yang, Yuhao Wang, Zichen WenZichen Wen, Luo Zhongwei, Chang Zou, Zhipeng Zhang, Chuan Wen, Linfeng Zhang

摘要

视觉-语言-动作(VLA)模型,特别是基于扩散的架构,在具身智能方面展现出变革性潜力,但由于固有的和推理时的大量冗余导致的高计算和内存需求,它们受到了严重阻碍。虽然现有的加速工作通常针对孤立的低效率问题,但这种零散的解决方案通常无法整体解决整个VLA流水线中各种计算和内存瓶颈,从而限制了实际部署能力。我们引入了EfficientVLA,一个结构化且无需训练的推理加速框架,它通过协同利用多方面冗余来系统性地消除这些障碍。EfficientVLA协同整合了三种有针对性的策略:(1) 根据层间冗余分析,对语言模块中功能上不重要的层进行剪枝;(2) 通过任务感知策略优化视觉处理路径,该策略选择一组紧凑、多样化的视觉令牌,平衡任务关键性与信息覆盖;以及 (3) 通过战略性地缓存和重用关键中间特征,缓解迭代扩散式动作头中的时间计算冗余。我们将我们的方法应用于标准VLA模型CogACT,实现了1.93倍的推理加速,并将浮点运算次数(FLOPs)减少到28.9%,在SIMPLER基准测试中成功率仅下降0.6%。
查看 arXiv 页面查看 PDF

评论

Zichen WenZichen Wen
论文作者
论文提交者

视觉-语言-动作(VLA)模型,特别是基于扩散的架构,展示了具身智能的变革潜力,但由于固有的和推理时的大量冗余,导致计算和内存需求高昂,严重阻碍了其实际应用。现有加速工作通常针对孤立的低效率,但这些零散的解决方案通常无法全面解决整个 VLA 管道中各种计算和内存瓶颈,从而限制了实际部署。我们引入了 EfficientVLA,这是一个结构化且无需训练的推理加速框架,通过协同利用多方面冗余,系统地消除了这些障碍。EfficientVLA 协同整合了三种有针对性的策略:(1) 基于层间冗余分析,对语言模块中功能不重要的层进行剪枝;(2) 通过任务感知策略优化视觉处理路径,选择紧凑、多样化的视觉词元集,平衡任务关键性与信息覆盖;以及 (3) 通过策略性缓存和重用关键中间特征,减轻迭代扩散式动作头中的时间计算冗余。我们将我们的方法应用于标准 VLA 模型 CogACT,实现了 1.93 倍的推理加速,并将浮点运算(FLOPs)降低到 28.9%,在 SIMPLER 基准测试中成功率仅下降 0.6%。