⏶5
HyCodePolicy:用于具身智能体多模态监测和决策的混合语言控制器
发表
由
Zhixuan Liang 提交
作者: Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu
摘要
多模态大型语言模型(MLLM)的最新进展为具身智能体中的代码策略生成提供了更丰富的感知基础。然而,大多数现有系统缺乏有效的机制来在任务完成过程中自适应地监控策略执行和修复代码。在这项工作中,我们引入了 HyCodePolicy,一个混合语言控制框架,它系统地将代码合成、几何基础、感知监控和迭代修复集成到具身智能体的闭环编程周期中。从技术上讲,给定一个自然语言指令,我们的系统首先将其分解为子目标,并生成一个以以对象为中心的几何原语为基础的初始可执行程序。然后程序在模拟中执行,同时视觉语言模型(VLM)观察选定的检查点以检测和定位执行失败并推断失败原因。通过将捕获程序级事件的结构化执行跟踪与基于 VLM 的感知反馈融合,HyCodePolicy 推断失败原因并修复程序。这种混合双重反馈机制能够实现自校正程序合成,且只需最少的人工监督。我们的结果表明,HyCodePolicy 显著提高了机器人操纵策略的鲁棒性和样本效率,为将多模态推理集成到自主决策管道中提供了一种可扩展的策略。
机器人现在可以自行编写、出错、观察自己出错,并修复错误——所有这些都无需寻求帮助。HyCodePolicy 让机器人能够利用视觉和代码像专业人士一样进行调试。