⏶9
SAFE: 视觉-语言-动作模型的多任务故障检测
发表
由
Qiao Gu 提交
作者: Qiao Gu,
Yuanliang Ju,
Shengxiang Sun, Igor Gilitschenski, Haruki Nishimura, Masha Itkina, Florian Shkurti

摘要
尽管视觉-语言-动作模型(VLA)在各种操作任务中展现出有前景的机器人行为,
但在部署到新的任务时,开箱即用的成功率有限。
为了使这些策略能够安全地与其环境交互,我们需要一个故障检测器,
能够及时发出警报,使机器人能够停止、回溯或请求帮助。
然而,现有故障检测器仅针对一项或少数特定任务进行训练和测试,
而 VLA 要求检测器能够泛化并检测未见过任务和新环境中的故障。
本文中,我们引入了多任务故障检测问题,并提出了 SAFE,一个适用于 VLA 等通用机器人策略的故障检测器。
我们分析了 VLA 特征空间,发现 VLA 具有足够的关于任务成功和失败的高级知识,这些知识在不同任务中是通用的。
基于这一洞察,我们将 SAFE 设计为从 VLA 内部特征中学习,并预测一个单一标量,指示任务失败的可能性。
SAFE 在成功和失败的推演中进行训练,并在未见过任务中进行评估。
SAFE 兼容不同的策略架构。我们在模拟和现实世界环境中对 OpenVLA、pi_0 和 pi_0-FAST 进行了广泛测试。
我们将 SAFE 与多种基线进行比较,结果表明 SAFE 使用一致性预测实现了最先进的故障检测性能,并在准确性和检测时间之间达到了最佳平衡。
更多定性结果可在 https://vla-safe.github.io/ 找到。
项目页面:https://vla-safe.github.io/