⏶9
做什么?教导视觉-语言-动作模型拒绝不可能的任务
发表
由
taesiri 提交

作者:
Wen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan
摘要
最近,视觉-语言-动作(VLA)模型在多种机器人任务上表现出色。这些模型依赖于多模态输入,其中语言指令起着至关重要的作用——不仅在于预测动作,还在于鲁棒地解释用户意图,即使在无法满足的请求中也是如此。在这项工作中,我们研究了 VLA 如何识别、解释和响应错误前提指令:指代环境中不存在的对象或条件的自然语言命令。我们提出了 Instruct-Verify-and-Act (IVA) 这一统一框架,它(i)检测何时由于错误前提而无法执行指令,(ii)进行基于语言的澄清或纠正,以及(iii)将合理的替代方案与感知和动作相结合。为此,我们构建了一个大规模的指令调优设置,使用结构化语言提示,并训练了一个能够处理准确和错误请求的 VLA 模型。我们的方法利用了一个包含正面和错误前提指令对的上下文增强的半合成数据集,实现了鲁棒的检测和自然语言纠正。我们的实验表明,与基线相比,IVA 将错误前提检测准确率提高了 97.56%,同时在错误前提场景下成功响应率提高了 50.78%。
> 近期,视觉-语言-动作(VLA)模型在各种机器人任务上展现出强大的性能。这些模型依赖于多模态输入,其中语言指令起着至关重要的作用——不仅在于预测动作,还在于稳健地解释用户意图,即使在指令无法满足的情况下也是如此。在这项工作中,我们研究 VLA 如何识别、解释和响应错误前提指令:即引用环境中不存在的对象或条件的自然语言命令。我们提出 Instruct-Verify-and-Act (IVA) 框架,这是一个统一的框架,它 (i) 检测由于错误前提而无法执行指令的情况,(ii) 进行基于语言的澄清或纠正,以及 (iii) 将合理的替代方案 grounding 到感知和动作中。为此,我们构建了一个包含结构化语言提示的大规模指令微调设置,并训练了一个能够处理准确和错误请求的 VLA 模型。我们的方法利用了一个上下文增强的半合成数据集,其中包含成对的正向和错误前提指令,从而实现了稳健的检测和自然语言纠正。我们的实验表明,IVA 将错误前提检测准确率比基线提高了 97.56%,同时在错误前提场景下将成功响应率提高了 50.78%。