⏶75

SmolVLA：一种经济高效的机器人视觉-语言-动作模型

06月02日发表

06月03日由 Andres Marafioti 提交

作者: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon Alibert, Matthieu Cord, Thomas Wolf, Remi Cadene

摘要

视觉语言模型（VLM）在大型多模态数据集上进行预训练，编码了丰富的视觉和语言知识，使其成为机器人技术的强大基础。与从头开始训练机器人策略不同，最近的方法将VLM адаптировать为视觉-语言-动作（VLA）模型，从而实现自然语言驱动的感知和控制。然而，现有的VLA通常体量庞大——参数常达数十亿——导致高昂的训练成本和有限的实际部署能力。此外，它们依赖于学术和工业数据集，而忽视了经济实惠的机器人平台日益增长的社区收集数据。在这项工作中，我们提出了SmolVLA，一个小型、高效且由社区驱动的VLA，它大幅降低了训练和推理成本，同时保持了有竞争力的性能。SmolVLA旨在单个GPU上进行训练，并部署在消费级GPU甚至CPU上。为了进一步提高响应速度，我们引入了一个异步推理堆栈，将感知和动作预测与动作执行解耦，从而通过分块动作生成实现更高的控制速率。尽管SmolVLA尺寸紧凑，但其性能与体积大10倍的VLA相当。我们在一系列模拟和真实世界机器人基准上评估了SmolVLA，并发布了所有代码、预训练模型和训练数据。

查看 arXiv 页面查看 PDF

Andres Marafioti

论文作者

论文提交者

SmolVLA 是一个小型、高效且由社区驱动的 VLA，它大幅降低了训练和推理成本，同时保持了有竞争力的性能。

作者们会在这里，所以让我们聊聊吧！

Aymeric Roucher

哇哇哇这真是太酷了！（抱歉信息量低）

Andres Marafioti

论文作者

论文提交者

你什么意思，这些是最好的评论：）

Aurélien-Morgan CLAUDON

此评论已隐藏。

Aurélien-Morgan CLAUDON

精彩的阅读体验。第三节更是价值连城。

Francesco Capuano

论文作者

🥰 非常感谢！🤗

Suhwan Choi

论文中提到模型在4个GPU上进行训练，对应3万GPU小时，但这相当于30000/24/4=312天。这个数字正确吗？

zhang

我问了作者同样的问题。这是项目的总和，包括由于架构调整、超参数调优、消融实验以及当然的测试而训练的100多个模型。

Will Norris

特别喜欢这里的异步推理贡献。几周前，我尝试在云 GPU 上运行 Gr00t，但遇到了网络延迟严重影响性能的问题，因此我非常欣赏将推理与动作执行并行化的想法。

我希望我们能看到其他 VLA 采用这种架构，这似乎是机器人共享云 GPU 而非依赖本地硬件（降低边际成本并提高可维护性！）的关键一步。

Francesco Capuano

论文作者

嘿 @willnorris 非常感谢你的评价——我们很高兴你喜欢这份报告和异步推理 😉

我们正在努力工作，以确保该技术栈能尽快在主线版本中落地。它已经兼容 LeRobot 支持的所有策略类型，并且我们的开源努力旨在使其成为社区的标准范式。为什么要落后呢？🤓

如果你对进展感兴趣，请查看这里的 PR 🔗 https://github.com/huggingface/lerobot/pull/1196

Francesco Capuano

论文作者

我正在考虑发布一篇博客文章，详细介绍异步架构，并为社区提供更多背景知识。@willnorris，你觉得我们在报告中有什么地方没有充分涵盖吗？

Will Norris

如果能将同步和异步时序图并排放置，那将非常酷，否则很难理解！

CleanShot 2025-06-05 at 13.43.36@2x.png

Francesco Capuano

论文作者

嘿 @willnorris 非常感谢你的评价——我们很高兴你喜欢这份报告和异步推理 😉

如果你对进展感兴趣，请查看这里的 PR 🔗 https://github.com/huggingface/lerobot/pull/1196