面向视觉运动智能体可泛化空间智能的可扩展多任务强化学习

发表
Shaofei CaiShaofei Cai 提交
作者: Shaofei CaiShaofei Cai, Zhancun Mu, Haiwen Xia, Bowei Zhang, Anji Liu, Yitao Liang

摘要

虽然强化学习(RL)在语言建模方面取得了显著成功,但其成功尚未完全转化到视觉-运动智能体上。强化学习模型的一个主要挑战是它们倾向于对特定任务或环境过拟合,这阻碍了其在不同环境中获得可泛化的行为。本文通过证明在《我的世界》(Minecraft)中经过强化学习微调的视觉-运动智能体可以实现对未知世界的零样本泛化,为这一挑战提供了初步的解答。具体来说,我们探索了强化学习在增强 3D 世界中可泛化的空间推理和交互能力方面的潜力。为了应对多任务强化学习表示中的挑战,我们分析并确立了跨视角目标指定,将其作为视觉-运动策略的统一多任务目标空间。此外,为克服手动任务设计这一重大瓶颈,我们提出了在高度可定制的《我的世界》环境中进行自动化任务合成,以支持大规模多任务强化学习训练,并构建了一个高效的分布式强化学习框架来支持此过程。实验结果表明,强化学习将交互成功率显著提升了4倍,并实现了空间推理能力在包括现实世界在内的不同环境中的零样本泛化。我们的研究结果强调,在 3D 模拟环境中进行强化学习训练,特别是那些适合大规模任务生成的环境,对于显著提升视觉-运动智能体的空间推理能力具有巨大潜力。
查看 arXiv 页面查看 PDF
面向视觉运动智能体可泛化空间智能的可扩展多任务强化学习

评论

Shaofei CaiShaofei Cai
论文作者
论文提交者

在 Minecraft 世界中首个通过强化学习训练的多任务策略,展示了对其他 3D 领域的零样本泛化能力。