Optimus-3:通过可扩展的任务专家迈向通用多模态Minecraft智能体

发表
Zaijing LiZaijing Li 提交
作者: Zaijing LiZaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie

摘要

最近,基于多模态大型语言模型(MLLMs)的智能体在各个领域取得了显著进展。然而,在Minecraft等开放世界环境中构建具有感知、规划、行动、定位和反思等能力的通用智能体仍然面临挑战:领域特定数据不足、异构任务之间的干扰以及开放世界设置中的视觉多样性。在本文中,我们通过三项关键贡献来解决这些挑战。1)我们提出了一种知识增强的数据生成管道,为智能体开发提供可扩展的高质量训练数据。2)为了减轻异构任务之间的干扰,我们引入了一种具有任务级路由的专家混合(MoE)架构。3)我们开发了一种多模态推理增强强化学习方法,以增强智能体在Minecraft中处理视觉多样性的推理能力。基于这些创新,我们提出了Optimus-3,一个用于Minecraft的通用智能体。大量的实验结果表明,Optimus-3在Minecraft环境中的广泛任务上超越了通用多模态大型语言模型和现有最先进的智能体。项目页面:https://cybertronagent.github.io/Optimus-3.github.io/
查看 arXiv 页面查看 PDF

评论

Zaijing LiZaijing Li
论文作者
论文提交者

Minecraft 中的通用多模态智能体。项目页面:https://cybertronagent.github.io/Optimus-3.github.io/