SmolVLA:一种经济高效的机器人视觉-语言-动作模型

发表
Andres MarafiotiAndres Marafioti 提交
作者: Mustafa ShukorMustafa Shukor, Dana AubakirovaDana Aubakirova, Francesco CapuanoFrancesco Capuano, Pepijn KooijmansPepijn Kooijmans, Steven PalmaSteven Palma, Adil ZouitineAdil Zouitine, Michel AractingiMichel Aractingi, Caroline PascalCaroline Pascal, Martino RussiMartino Russi, Andres MarafiotiAndres Marafioti, Simon  AlibertSimon Alibert, Matthieu Cord, Thomas WolfThomas Wolf, Remi CadeneRemi Cadene

摘要

视觉语言模型(VLM)在大型多模态数据集上进行预训练,编码了丰富的视觉和语言知识,使其成为机器人技术的强大基础。与从头开始训练机器人策略不同,最近的方法将VLM адаптировать为视觉-语言-动作(VLA)模型,从而实现自然语言驱动的感知和控制。然而,现有的VLA通常体量庞大——参数常达数十亿——导致高昂的训练成本和有限的实际部署能力。此外,它们依赖于学术和工业数据集,而忽视了经济实惠的机器人平台日益增长的社区收集数据。在这项工作中,我们提出了SmolVLA,一个小型、高效且由社区驱动的VLA,它大幅降低了训练和推理成本,同时保持了有竞争力的性能。SmolVLA旨在单个GPU上进行训练,并部署在消费级GPU甚至CPU上。为了进一步提高响应速度,我们引入了一个异步推理堆栈,将感知和动作预测与动作执行解耦,从而通过分块动作生成实现更高的控制速率。尽管SmolVLA尺寸紧凑,但其性能与体积大10倍的VLA相当。我们在一系列模拟和真实世界机器人基准上评估了SmolVLA,并发布了所有代码、预训练模型和训练数据。
查看 arXiv 页面查看 PDF

评论

Andres MarafiotiAndres Marafioti
论文作者
论文提交者

SmolVLA 是一个小型、高效且由社区驱动的 VLA,它大幅降低了训练和推理成本,同时保持了有竞争力的性能。

作者们会在这里,所以让我们聊聊吧!

Aymeric RoucherAymeric Roucher

哇哇哇这真是太酷了!(抱歉信息量低)

Andres MarafiotiAndres Marafioti
论文作者
论文提交者

你什么意思,这些是最好的评论:)

Aurélien-Morgan CLAUDONAurélien-Morgan CLAUDON
此评论已隐藏。
Aurélien-Morgan CLAUDONAurélien-Morgan CLAUDON

精彩的阅读体验。第三节更是价值连城。

Francesco CapuanoFrancesco Capuano
论文作者

🥰 非常感谢!🤗

Suhwan ChoiSuhwan Choi

论文中提到模型在4个GPU上进行训练,对应3万GPU小时,但这相当于30000/24/4=312天。这个数字正确吗?

zhangzhang

我问了作者同样的问题。这是项目的总和,包括由于架构调整、超参数调优、消融实验以及当然的测试而训练的100多个模型。

Will NorrisWill Norris

特别喜欢这里的异步推理贡献。几周前,我尝试在云 GPU 上运行 Gr00t,但遇到了网络延迟严重影响性能的问题,因此我非常欣赏将推理与动作执行并行化的想法。

我希望我们能看到其他 VLA 采用这种架构,这似乎是机器人共享云 GPU 而非依赖本地硬件(降低边际成本并提高可维护性!)的关键一步。

Francesco CapuanoFrancesco Capuano
论文作者

嘿 @willnorris 非常感谢你的评价——我们很高兴你喜欢这份报告和异步推理 😉

我们正在努力工作,以确保该技术栈能尽快在主线版本中落地。它已经兼容 LeRobot 支持的所有策略类型,并且我们的开源努力旨在使其成为社区的标准范式。为什么要落后呢?🤓

如果你对进展感兴趣,请查看这里的 PR 🔗 https://github.com/huggingface/lerobot/pull/1196

Francesco CapuanoFrancesco Capuano
论文作者

我正在考虑发布一篇博客文章,详细介绍异步架构,并为社区提供更多背景知识。@willnorris,你觉得我们在报告中有什么地方没有充分涵盖吗?

Will NorrisWill Norris

如果能将同步和异步时序图并排放置,那将非常酷,否则很难理解!

CleanShot 2025-06-05 at 13.43.36@2x.png

Francesco CapuanoFrancesco Capuano
论文作者

嘿 @willnorris 非常感谢你的评价——我们很高兴你喜欢这份报告和异步推理 😉

我们正在努力工作,以确保该技术栈能尽快在主线版本中落地。它已经兼容 LeRobot 支持的所有策略类型,并且我们的开源努力旨在使其成为社区的标准范式。为什么要落后呢?🤓

如果你对进展感兴趣,请查看这里的 PR 🔗 https://github.com/huggingface/lerobot/pull/1196