⏶8
专业知识不必垄断:用于视觉-语言-动作学习的动作专业混合专家
发表
由
Shen Weijie 提交

作者:
Weijie Shen, Yitian Liu, Yuhao Wu,
Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu

摘要
AI 生成总结
AdaMoE 是一种专家混合架构,通过利用预训练权重和提高计算效率来增强 VLA 模型,在机器人操作任务中取得了卓越的性能。视觉-语言-动作(VLA)模型正在经历快速发展,并在机器人操作任务中展示出有前途的能力。然而,扩展 VLA 模型带来了几个关键挑战:(1)从头开始训练新的 VLA 模型需要大量的计算资源和广泛的数据集。鉴于目前机器人数据的稀缺性,在扩展过程中充分利用预训练的 VLA 模型权重变得尤为重要。(2)实时控制需要仔细平衡模型容量与计算效率。为了应对这些挑战,我们提出了 AdaMoE,一种继承了密集 VLA 模型预训练权重的混合专家(MoE)架构,并通过将前馈层替换为稀疏激活的 MoE 层来扩展动作专家。AdaMoE 采用了一种解耦技术,通过一个独立的尺度适配器与传统的路由器一起工作,将专家选择与专家加权解耦。这使得专家能够根据任务相关性进行选择,同时以独立控制的权重做出贡献,从而实现协作专家利用而非赢者通吃。我们的方法表明,专业知识不必垄断。相反,通过协作专家利用,我们可以在保持计算效率的同时实现卓越的性能。AdaMoE 在关键基准上始终优于基线模型,在 LIBERO 上提高了 1.8%,在 RoboTwin 上提高了 9.3%。最重要的是,在现实世界实验中取得了实质性的 21.5% 的改进,验证了其在机器人操作任务中的实际有效性。
(1) 我们提出了一种高效的方法来扩展 VLA 模型。通过继承来自预训练良好的 VLA 基础模型的权重,我们以低成本将它们扩展到具有良好平衡专家的 MoE 架构。
(2) 我们引入了一种专为 VLA 模型设计的新型 MoE 架构。通过将令牌选择与专家加权分离,该架构能够实现有效的负载平衡和性能提升。
(3) 我们在既有基准上展示了显著的性能提升,在 LIBERO 任务上比 $\pi_0$ 基线提高了 1.8%,在 19 个 RoboTwin 硬设置任务上提高了 9.3% 的成功率。最重要的是,在真实世界实验中提高了 21.5%,验证了其在机器人操控任务中的实际有效性。