⏶42
LIBERO-Plus:视觉-语言-动作模型的深入鲁棒性分析
发表
由
Siyin Wang 提交
作者: Senyu Fei,
Siyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu
摘要
AI 生成总结
最先进的视觉-语言-动作模型在基准测试中得分很高,但对各种扰动(尤其是相机视角和机器人初始状态)很脆弱,并且经常忽略语言指令。视觉-语言-动作 (VLA) 模型在机器人操作基准测试中报告了令人印象深刻的成功率,但这些结果可能掩盖了鲁棒性方面的一些基本弱点。我们通过引入跨越七个维度的受控扰动来进行系统性的脆弱性分析:物体布局、相机视角、机器人初始状态、语言指令、光照条件、背景纹理和传感器噪声。我们对多个最先进的模型进行了全面分析,并揭示了在表面能力之下的持续的脆弱性。我们的分析暴露了关键的弱点:模型对扰动因素(包括相机视角和机器人初始状态)表现出极高的敏感性,在温和的扰动下,性能会从 95% 下降到 30% 以下。令人惊讶的是,模型对语言变化的敏感度很低,进一步的实验表明,模型往往完全忽略语言指令。我们的发现挑战了高基准分数等同于真正能力的假设,并强调需要评估在真实变化下评估可靠性的评估方法。
🚀 推出 LIBERO-Plus:视觉-语言-动作模型综合基准
我们很高兴推出 LIBERO-Plus,这是视觉-语言-动作(VLA)模型的先进鲁棒性评估工具。LIBERO-Plus 使研究人员能够了解这些模型在各种环境扰动下的表现,揭示它们在现实场景中的脆弱性。