⏶53
RLinf-USER:一个统一且可扩展的具身智能真实世界在线策略学习系统
发表
由
Chao Yu 提交
作者: Hongzhi Zang,
Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang
摘要
AI 生成总结
USER 是一个统一的系统框架,它将物理机器人视为一级硬件资源,支持包括 VLA 模型在内的多种学习范式,从而实现可扩展的异步在线策略学习。直接在物理世界中进行在线策略学习是具身智能的一个极具前景但又极具挑战的方向。与模拟环境不同,现实系统无法任意加速、廉价重置或大规模复制,这使得可扩展的数据采集、异构部署和长时程有效训练变得困难。这些挑战表明,现实策略学习不仅是一个算法问题,从根本上说是一个系统问题。我们展示了 USER,这是一个用于现实在线策略学习的统一且可扩展的系统。USER 通过统一的硬件抽象层将物理机器人与 GPU 同等视为一等硬件资源,实现了异构机器人的自动发现、管理和调度。为了解决云边通信问题,USER 引入了一个具有基于隧道的网络、用于流量本地化的分布式数据通道以及感知流式多处理器的权重同步的自适应通信平面,以调节 GPU 端开销。在此基础设施之上,USER 将学习组织为一个具有持久化、感知缓存缓冲区的完全异步框架,从而实现了具有稳健崩溃恢复和历史数据重用的高效长时程实验。此外,USER 为奖励、算法和策略提供了可扩展的抽象,支持在统一流水线中对 CNN/MLP、生成式策略和大型视觉-语言-动作 (VLA) 模型进行在线模仿或强化学习。在模拟和现实世界中的结果表明,USER 支持多机器人协作、异构操纵器、基于大模型的边云协作以及长期运行的异步训练,为现实在线策略学习提供了统一且可扩展的系统基础。
我们推出了 USER,这是一个用于真实世界在线策略学习的统一且可扩展的系统。USER 通过统一的硬件抽象层,将物理机器人与 GPU 一起视为一类硬件资源,实现了异构机器人的自动发现、管理和调度。