⏶75
SmolVLA:一种经济高效的机器人视觉-语言-动作模型
发表
由
Andres Marafioti 提交

作者:
Mustafa Shukor,
Dana Aubakirova,
Francesco Capuano,
Pepijn Kooijmans,
Steven Palma,
Adil Zouitine,
Michel Aractingi,
Caroline Pascal,
Martino Russi,
Andres Marafioti,
Simon Alibert, Matthieu Cord,
Thomas Wolf,
Remi Cadene











摘要
视觉语言模型(VLM)在大型多模态数据集上进行预训练,编码了丰富的视觉和语言知识,使其成为机器人技术的强大基础。与从头开始训练机器人策略不同,最近的方法将VLM адаптировать为视觉-语言-动作(VLA)模型,从而实现自然语言驱动的感知和控制。然而,现有的VLA通常体量庞大——参数常达数十亿——导致高昂的训练成本和有限的实际部署能力。此外,它们依赖于学术和工业数据集,而忽视了经济实惠的机器人平台日益增长的社区收集数据。在这项工作中,我们提出了SmolVLA,一个小型、高效且由社区驱动的VLA,它大幅降低了训练和推理成本,同时保持了有竞争力的性能。SmolVLA旨在单个GPU上进行训练,并部署在消费级GPU甚至CPU上。为了进一步提高响应速度,我们引入了一个异步推理堆栈,将感知和动作预测与动作执行解耦,从而通过分块动作生成实现更高的控制速率。尽管SmolVLA尺寸紧凑,但其性能与体积大10倍的VLA相当。我们在一系列模拟和真实世界机器人基准上评估了SmolVLA,并发布了所有代码、预训练模型和训练数据。
评论

论文作者
嘿 @willnorris 非常感谢你的评价——我们很高兴你喜欢这份报告和异步推理 😉
我们正在努力工作,以确保该技术栈能尽快在主线版本中落地。它已经兼容 LeRobot 支持的所有策略类型,并且我们的开源努力旨在使其成为社区的标准范式。为什么要落后呢?🤓
如果你对进展感兴趣,请查看这里的 PR 🔗 https://github.com/huggingface/lerobot/pull/1196

论文作者
嘿 @willnorris 非常感谢你的评价——我们很高兴你喜欢这份报告和异步推理 😉
我们正在努力工作,以确保该技术栈能尽快在主线版本中落地。它已经兼容 LeRobot 支持的所有策略类型,并且我们的开源努力旨在使其成为社区的标准范式。为什么要落后呢?🤓
如果你对进展感兴趣,请查看这里的 PR 🔗 https://github.com/huggingface/lerobot/pull/1196
SmolVLA 是一个小型、高效且由社区驱动的 VLA,它大幅降低了训练和推理成本,同时保持了有竞争力的性能。
作者们会在这里,所以让我们聊聊吧!