OmniNWM:全知驾驶导航世界模型

发表
Bohan LiBohan Li 提交
作者: Bohan Li, Zhuang MaZhuang Ma, Dalong Du, Baorui Peng, Zhujin Liang, Zhenqiang Liu, Chao Ma, Yueming Jin, Hao Zhao, Wenjun Zeng, Xin Jin

摘要

AI 生成总结
OmniNWM 是一种用于自动驾驶的统一世界模型,它能生成全景视频,使用 Plucker 射线图编码动作,并基于 3D 占用率定义密集奖励,从而在视频生成、控制和稳定性方面取得顶级性能。
自动驾驶世界模型有望在状态、动作和奖励这三个核心维度上有效工作。 然而,现有模型通常仅限于有限的状态模态、短视频序列、不精确的动作控制以及缺乏奖励意识。 在本文中,我们引入了 OmniNWM,一个全知全景导航世界模型,它在统一框架内解决了这三个维度。 对于状态,OmniNWM 共同生成 RGB、语义、度量深度和 3D 占用率的全景视频。灵活的强制策略能够实现高质量的长期自回归生成。 对于动作,我们引入了归一化全景 Plucker 射线图表示, 将输入轨迹编码为像素级信号,从而能够对全景视频生成进行高度精确和可泛化的控制。 关于奖励,我们超越了使用外部基于图像的模型学习奖励函数: 相反,我们利用生成的 3D 占用率直接定义基于规则的密集奖励,以实现驾驶合规性和安全性。 大量实验表明,OmniNWM 在视频生成、控制精度和长期稳定性方面取得了最先进的性能, 同时通过基于占用率的奖励提供了一个可靠的闭环评估框架。项目页面可在 https://github.com/Arlo0o/OmniNWM 获取。
查看 arXiv 页面查看 PDF

评论

Bohan LiBohan Li
论文提交者

teaser
OmniNWM 解决了自动驾驶世界模型的三个核心维度:

📊 状态:全景 RGB、语义、度量深度和 3D 占用视频的联合生成
🎮 动作:通过归一化的普吕克射线图进行精确全景相机控制
🏆 奖励:集成的基于占用的密集奖励,用于驾驶合规性和安全性

Bohan LiBohan Li
论文提交者

https://arlo0o.github.io/OmniNWM/