Lumine: 在3D开放世界中构建通用智能体的开放配方

发表
taesiritaesiri 提交
作者: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, YiBairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi

摘要

AI 生成总结
Lumine 是一种基于视觉语言模型的智能体,可在不同的 3D 开放世界环境中实时完成复杂的任务,具有类似人类的效率和零样本跨游戏泛化能力。
我们推出了 Lumine,这是第一个开放式配方,用于开发能够在具有挑战性的 3D 开放世界环境中实时完成数小时复杂任务的通用智能体。Lumine 采用类似人类的交互范式,以端到端的方式统一感知、推理和行动,并由视觉-语言模型提供支持。它以 5 Hz 的频率处理原始像素,生成精确的 30 Hz 键盘-鼠标动作,并仅在必要时自适应地进行推理。Lumine 在《原神》中训练,成功地以与人类相当的效率完成了长达五小时的蒙德城主线任务,并遵循自然语言指令执行 3D 开放世界探索和 2D GUI 操作中的各种任务,包括收集、战斗、解谜和 NPC 交互。除了其在领域内的表现外,Lumine 还展示了强大的零样本跨游戏泛化能力。在没有任何微调的情况下,它完成了《鸣潮》中 100 分钟的任务以及《崩坏:星穹铁道》中长达五小时的完整第一章。这些令人鼓舞的结果突显了 Lumine 在不同世界和交互动态中的有效性,标志着向开放式环境中的通用智能体迈出了坚实的一步。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

提出了 Lumine,一个开放的、端到端的视觉-语言智能体,用于 3D 开放世界中的通用型、长时程任务,无需微调即可达到人类水平的效率和零样本跨游戏泛化。

Zhang WentaoZhang Wentao

这项工作太棒了!!!

Yamata ZenYamata Zen

提到原神了

Junhong WuJunhong Wu

Amazing work!

ZheyangHuangZheyangHuang

原神,启动!

monkeyccmonkeycc

希望开源

LANCASTERLANCASTER

干得漂亮!有意思的是,像在《鸣潮》这类游戏中,荧出色的泛化能力进一步证明了它本质上就是一款教科书般的《原神》类游戏,哈哈。

JiJi

原神 启动!!!