⏶224
VLA-Adapter: 小型视觉-语言-动作模型的有效范例
发表
由
Siteng Huang 提交

作者:
Yihao Wang, Pengxiang Ding,
Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong,
Wenxuan Song, Han Zhao, Wei Zhao, Pengxu Hou, Siteng Huang, Yifan Tang, Wenhui Wang, Ru Zhang, Jianyi Liu, Donglin Wang
摘要
AI 生成总结
VLA-Adapter 通过使用带有桥接注意力的轻量级策略模块,减少了对大型视觉语言模型(VLM)和广泛预训练的依赖,以最少的计算资源实现了最先进的性能和快速推理速度。视觉-语言-动作(VLA)模型通常通过在机器人数据上预训练一个大规模视觉-语言模型(VLM)来连接感知和动作空间。虽然这种方法极大地提高了性能,但也带来了显著的训练成本。本文研究了如何有效地连接视觉-语言(VL)表示到动作(A)。我们引入了 VLA-Adapter,一种旨在减少 VLA 模型对大规模 VLM 和广泛预训练依赖性的新颖范式。为此,我们首先系统地分析了各种 VL 条件的有效性,并提出了关于哪些条件对于连接感知和动作空间至关重要的关键发现。基于这些见解,我们提出了一种轻量级的具有桥接注意力的策略模块,该模块可以自主地将最优条件注入动作空间。通过这种方式,我们的方法仅使用一个 0.5B 参数的骨干网络,无需任何机器人数据预训练,即可实现高性能。在模拟和真实世界机器人基准测试上的广泛实验表明,VLA-Adapter 不仅实现了最先进的性能水平,而且还提供了迄今为止报告的最快推理速度。此外,得益于提出的先进桥接范式,VLA-Adapter 可以在单台消费级 GPU 上仅用 8 小时即可训练一个强大的 VLA 模型,大大降低了部署 VLA 模型的门槛。项目主页:https://vla-adapter.github.io/.
评论
arXiv 论文详解 👉 https://arxivexplained.com/papers/vla-adapter-an-effective-paradigm-for-tiny-scale-vision-language-action-model
论文作者
💖 感谢您对 VLA-Adapter 的持续关注!
🧑🏫我们在 😺 GitHub 上提供了一个全面的 README.md
文件,它应该可以帮助您成功地进行训练和推理。
❓️如果您在复现过程中遇到任何问题,请提交一个 issue 或加入我们的 微信群
。群二维码也包含在 issue 中!👉 https://github.com/OpenHelix-Team/VLA-Adapter/issues/1
🌟此外,我们基于 VLA-Adapter 的 VLA-RFT 论文已发布。它利用 强化学习,通过最少的样本和迭代与 世界模型 进行交互,显著提高了 VLA 对扰动的鲁棒性。
📃论文:https://arxiv.org/abs/2510.00406
🌏️项目主页:https://vla-rft.github.io/
😺GitHub:https://github.com/OpenHelix-Team/VLA-RFT
😊HuggingFace:https://huggingface.co/VLA-RFT
Arxiv:https://arxiv.org/abs/2509.09372 模型:https://huggingface.co/VLA-Adapter 项目页面:https://vla-adapter.github.io/