ERA:通过具身先验学习和在线强化学习将 VLMs 转化为具身代理

发表
Rui YangRui Yang 提交
作者: Hanyang ChenHanyang Chen, Mark Zhao, Rui YangRui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang

摘要

具身 AI 的最新进展凸显了视觉语言模型(VLM)作为在复杂环境中感知、推理和交互的代理的潜力。然而,顶级系统依赖于部署成本高昂的大型模型,而较小的 VLM 则缺乏成功的必要知识和技能。为了弥合这一差距,我们提出了 Embodied Reasoning Agent(ERA),一个集成了先验知识学习和在线强化学习(RL)的两阶段框架。第一阶段,Embodied Prior Learning(具身先验学习),从三种类型的数据中提取基础知识:(1)轨迹增强先验,通过更强模型的结构化推理来丰富现有轨迹数据;(2)环境锚定先验,提供环境内部知识和基础监督;(3)外部知识先验,从环境外部数据集传输通用知识。在第二阶段,我们开发了一个在线 RL 流水线,该流水线建立在这些先验知识的基础上,以进一步提升代理的性能。为了克服代理 RL 中固有的挑战,包括长时程、稀疏奖励和训练不稳定,我们引入了三个关键设计:用于上下文管理的自总结、密集奖励整形和回合级策略优化。在高级规划(EB-ALFRED)和低级控制(EB-Manipulation)任务上的大量实验表明,ERA-3B 在各方面都优于基于提示的大型模型和以前的基于训练的基线。具体来说,它在 EB-ALFRED 上比 GPT-4o 提高了 8.4%,在 EB-Manipulation 上提高了 19.4%,并且表现出对未见任务的强大泛化能力。总而言之,ERA 为可扩展的具身智能提供了一条实用途径,为未来的具身 AI 系统提供了方法学见解。
查看 arXiv 页面查看 PDF

评论

Rui YangRui Yang
论文作者
论文提交者

本文研究了使用两阶段方法训练基于 VLM 的具身代理:具身先验学习(Embodied Prior Learning)和在线强化学习。研究表明,三种先验数据在 RL 之前加强了代理,并为多轮 VLM 代理中的稳定、有效的在线 RL 引入了策略。项目页面:https://embodied-reasoning-agent.github.io