⏶140
SmolVLA:一种经济高效的机器人视觉-语言-动作模型
发表
由
Andres Marafioti 提交
作者:
Mustafa Shukor,
Dana Aubakirova,
Francesco Capuano,
Pepijn Kooijmans,
Steven Palma,
Adil Zouitine,
Michel Aractingi,
Caroline Pascal,
Martino Russi,
Andres Marafioti,
Simon Alibert, Matthieu Cord,
Thomas Wolf,
Remi Cadene
摘要
AI 生成总结
SmolVLA是一个紧凑高效的视觉-语言-动作模型,以较低的计算成本实现了具有竞争力的性能,并可在消费级硬件上部署。视觉语言模型(VLM)在大型多模态数据集上进行预训练,编码了丰富的视觉和语言知识,使其成为机器人技术的强大基础。与从头开始训练机器人策略不同,最近的方法将VLM адаптировать为视觉-语言-动作(VLA)模型,从而实现自然语言驱动的感知和控制。然而,现有的VLA通常体量庞大——参数常达数十亿——导致高昂的训练成本和有限的实际部署能力。此外,它们依赖于学术和工业数据集,而忽视了经济实惠的机器人平台日益增长的社区收集数据。在这项工作中,我们提出了SmolVLA,一个小型、高效且由社区驱动的VLA,它大幅降低了训练和推理成本,同时保持了有竞争力的性能。SmolVLA旨在单个GPU上进行训练,并部署在消费级GPU甚至CPU上。为了进一步提高响应速度,我们引入了一个异步推理堆栈,将感知和动作预测与动作执行解耦,从而通过分块动作生成实现更高的控制速率。尽管SmolVLA尺寸紧凑,但其性能与体积大10倍的VLA相当。我们在一系列模拟和真实世界机器人基准上评估了SmolVLA,并发布了所有代码、预训练模型和训练数据。
评论
论文作者
嘿 @willnorris 非常感谢你的评价——我们很高兴你喜欢这份报告和异步推理 😉
我们正在努力工作,以确保该技术栈能尽快在主线版本中落地。它已经兼容 LeRobot 支持的所有策略类型,并且我们的开源努力旨在使其成为社区的标准范式。为什么要落后呢?🤓
如果你对进展感兴趣,请查看这里的 PR 🔗 https://github.com/huggingface/lerobot/pull/1196
论文作者
嗨 @willnorris 👋 当然,将我们设计的架构与传统的同步策略进行对比是很明智的。在我们进行这项工作的同时,您可以查看此评论,其中以图形方式比较了同步与异步。
如果您还有其他问题,请告诉我🤗
论文作者
嘿 @willnorris 非常感谢你的评价——我们很高兴你喜欢这份报告和异步推理 😉
我们正在努力工作,以确保该技术栈能尽快在主线版本中落地。它已经兼容 LeRobot 支持的所有策略类型,并且我们的开源努力旨在使其成为社区的标准范式。为什么要落后呢?🤓
如果你对进展感兴趣,请查看这里的 PR 🔗 https://github.com/huggingface/lerobot/pull/1196

SmolVLA 是一个小型、高效且由社区驱动的 VLA,它大幅降低了训练和推理成本,同时保持了有竞争力的性能。
作者们会在这里,所以让我们聊聊吧!