VIKI-R:通过强化学习协调具身多智能体协作

发表
Li KangLi Kang 提交
作者: Li KangLi Kang, Xiufeng Song, Heng Zhou, Yiran Qin, Jie Yang, Xiaohong Liu, Philip Torr, Lei Bai, Zhenfei Yin

摘要

在动态环境中协调多个具身智能体仍然是人工智能领域的一个核心挑战,这既需要感知驱动的推理,也需要可扩展的协作策略。尽管最近的工作已经利用大型语言模型(LLM)进行多智能体规划,但少数工作已开始探索视觉-语言模型(VLM)进行视觉推理。然而,这些基于VLM的方法在支持多样化具身类型方面仍然存在局限性。在这项工作中,我们引入了VIKI-Bench,这是第一个为具身多智能体协作量身定制的层次化基准,具有三个结构化级别:智能体激活、任务规划和轨迹感知。VIKI-Bench包含多样化的机器人具身、多视角视觉观测以及结构化的监督信号,以评估基于视觉输入的推理能力。为了展示VIKI-Bench的实用性,我们提出了VIKI-R,这是一个两阶段框架,通过链式思考标注的演示对预训练的视觉-语言模型(VLM)进行微调,然后通过多级别奖励信号进行强化学习。我们的大量实验表明,VIKI-R在所有任务级别上都显著优于基线方法。此外,我们展示了强化学习能够促进异构智能体之间组合式协作模式的出现。VIKI-Bench和VIKI-R共同为推动具身人工智能系统中多智能体、视觉驱动的协作提供了一个统一的测试平台和方法。
查看 arXiv 页面查看 PDF

评论

Li KangLi Kang
论文作者
论文提交者

项目主页:this https URL