从意图到执行:探究视觉-语言-动作模型的泛化边界

发表
Juexiao ZhangJuexiao Zhang 提交
作者: Irving Fang, Juexiao ZhangJuexiao Zhang, Shengbang Tong, Chen Feng

摘要

愿景-语言-动作 (VLA) 模型相对于传统机器人模仿学习的一个优势在于,它们能够利用大型愿景-语言模型 (VLM) 广泛的泛化能力来生成多功能、"通用"的机器人策略。然而,当前对 VLA 的评估仍然不足。传统的模仿学习基准不适用于 VLA,因为它们缺乏语言指令。新兴的 VLA 基准虽然包含了语言,但通常评估任务有限,并且无意探究 VLM 预训练对下游机器人策略泛化能力的实际贡献。同时,许多研究依赖于由不同机构独立设计的真实世界机器人设置,这为重现性和可访问性造成了障碍。为了弥补这一空白,我们引入了一个统一的探测套件,包含 50 个基于仿真的任务,涵盖语言指令、视觉和对象等 10 个子类别。我们系统地评估了该套件上几种最先进的 VLA 架构,以了解它们的泛化能力。我们的结果表明,虽然 VLM 主干赋予 VLA 强大的感知理解能力和高级规划能力(我们称之为“良好意图”),但这并不能可靠地转化为精确的运动执行:当面临分布外观测时,策略通常表现出连贯的意图,但在动作执行上却会失误。此外,对动作数据进行微调可能会削弱原始 VLM 的通用推理能力。我们发布了我们的任务套件和评估代码,以期作为未来 VLA 的标准化基准,并推动弥合感知与行动之间差距的研究。更多信息,包括源代码,可在 https://ai4ce.github.io/INT-ACT/ 找到。
查看 arXiv 页面查看 PDF

评论

Juexiao ZhangJuexiao Zhang
论文作者
论文提交者

🤖 新论文:探索VLA泛化能力极限

我们推出了一个包含50个模拟任务的探测套件,用于系统性评估视觉-语言-动作模型。关键发现:VLA模型表现出良好的"意图"(规划&感知),但在分布外场景中难以实现精确执行。包含标准化评估代码&任务套件。

📄 论文:从意图到执行:探索视觉-语言-动作模型的泛化边界

🔗 代码:https://ai4ce.github.io/INT-ACT/