LIBERO-Plus:视觉-语言-动作模型的深入鲁棒性分析

发表
Siyin WangSiyin Wang 提交
作者: Senyu Fei, Siyin WangSiyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu

摘要

AI 生成总结
最先进的视觉-语言-动作模型在基准测试中得分很高,但对各种扰动(尤其是相机视角和机器人初始状态)很脆弱,并且经常忽略语言指令。
视觉-语言-动作 (VLA) 模型在机器人操作基准测试中报告了令人印象深刻的成功率,但这些结果可能掩盖了鲁棒性方面的一些基本弱点。我们通过引入跨越七个维度的受控扰动来进行系统性的脆弱性分析:物体布局、相机视角、机器人初始状态、语言指令、光照条件、背景纹理和传感器噪声。我们对多个最先进的模型进行了全面分析,并揭示了在表面能力之下的持续的脆弱性。我们的分析暴露了关键的弱点:模型对扰动因素(包括相机视角和机器人初始状态)表现出极高的敏感性,在温和的扰动下,性能会从 95% 下降到 30% 以下。令人惊讶的是,模型对语言变化的敏感度很低,进一步的实验表明,模型往往完全忽略语言指令。我们的发现挑战了高基准分数等同于真正能力的假设,并强调需要评估在真实变化下评估可靠性的评估方法。
查看 arXiv 页面查看 PDF

评论

Siyin WangSiyin Wang
论文作者
论文提交者

🚀 推出 LIBERO-Plus:视觉-语言-动作模型综合基准

我们很高兴推出 LIBERO-Plus,这是视觉-语言-动作(VLA)模型的先进鲁棒性评估工具。LIBERO-Plus 使研究人员能够了解这些模型在各种环境扰动下的表现,揭示它们在现实场景中的脆弱性。

Siyin WangSiyin Wang
论文作者
论文提交者

🔍 新颖发现:揭示隐藏的脆弱性

  • 模型对扰动因素表现出极高的敏感性,包括摄像机视角和机器人初始状态,在适度扰动下性能从 95% 下降到 30% 以下。

  • 模型对语言变化基本不敏感,进一步的实验表明模型倾向于完全忽略语言指令。

  • 模型依赖于表面的视觉线索,例如位置偏差,而不是对任务相关对象的真正语义理解。

  • 组合泛化本质上是不可分解的。

  • 训练数据多样性显著提高了鲁棒性。

...

有关更详细信息,请查阅我们的论文。

Siyin WangSiyin Wang
论文作者
论文提交者

⚙️ 易于使用:无缝过渡到 LIBERO-Plus

LIBERO-Plus 使用户能够非常轻松地评估现有模型的鲁棒性。只需几个简单步骤,您就可以无缝地从 LIBERO 切换到 LIBERO-Plus,解锁强大的自动和细粒度评估工具。

Siyin WangSiyin Wang
论文作者
论文提交者

📊 全面、自动和细粒度基准

LIBERO-Plus 提供了一个强大的基准框架,包含 7 个扰动维度和 21 个子维度。它提供了从 L1 到 L5 的细粒度难度等级,允许用户系统地评估模型在各种挑战下的性能。构造是自动化的,包括训练和测试数据集,使得进行全面评估比以往任何时候都更容易。