⏶18
BitVLA:用于机器人操作的1比特视觉-语言-动作模型
发表
由
Hongyu Wang 提交

作者: Hongyu Wang, Chuyan Xiong, Ruiping Wang, Xilin Chen
摘要
视觉-语言-动作 (VLA) 模型在广泛的机器人操纵任务中展现出令人印象深刻的能力。然而,它们不断增长的模型尺寸对在资源受限的机器人系统上部署提出了重大挑战。尽管1比特预训练已被证明能有效提升大型语言模型的推理效率且性能损失极小,但其在VLA模型中的应用仍未被充分探索。在这项工作中,我们提出了BitVLA,这是首个用于机器人操纵的1比特VLA模型,其中每个参数都是三元的,即{-1, 0, 1}。为了进一步减少视觉编码器的内存占用,我们提出了一种蒸馏感知训练策略,将全精度编码器压缩到1.58比特的权重。在此过程中,一个全精度编码器作为教师模型,以更好地对齐潜在表示。尽管缺乏大规模机器人预训练,BitVLA在LIBERO基准测试上取得了与最先进的OpenVLA-OFT模型(采用4比特训练后量化)相当的性能,同时内存消耗仅为后者的29.8%。这些结果突显了BitVLA在内存受限的边缘设备上部署的潜力。我们在https://github.com/ustcwhy/BitVLA 发布了代码和模型权重。
视觉-语言-动作(VLA)模型在广泛的机器人操作任务中展现了令人印象深刻的能力。然而,它们不断增长的模型尺寸给在资源受限的机器人系统上部署带来了重大挑战。尽管1比特预训练已被证明能有效提升大型语言模型的推理效率且性能损失极小,但其在VLA模型上的应用仍未得到充分探索。在这项工作中,我们提出了BitVLA,这是首个用于机器人操作的1比特VLA模型,其中每个参数都是三元的,即{-1, 0, 1}。为了进一步减少视觉编码器的内存占用,我们提出了蒸馏感知训练策略,将全精度编码器压缩到1.58比特的权重。在此过程中,一个全精度编码器充当教师模型,以更好地对齐潜在表示。尽管缺乏大规模的机器人预训练,BitVLA在LIBERO基准测试中取得了与最先进的模型OpenVLA-OFT(采用4比特后训练量化)相当的性能,同时内存消耗仅为其29.8%。这些结果凸显了BitVLA在内存受限的边缘设备上部署的巨大潜力。我们已在此https URL发布了代码和模型权重。