DrivingGen:自动驾驶生成式视频世界模型的综合基准

发表
yangyang 提交
作者: yangYang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander

摘要

AI 生成总结
DrivingGen 提出了首个针对生成式驾驶世界模型的全面基准测试,通过多样化的数据集和评估指标(包括视觉真实性、轨迹合理性、时空一致性和可控性)解决了现有评估的局限性。
视频生成模型作为世界模型的一种形式,已成为 AI 领域最令人兴奋的前沿之一,它赋予了智能体通过模拟复杂场景的时间演化来想象未来的能力。在自动驾驶中,这一愿景孕育了驾驶世界模型:一种想象本车和周围智能体未来的生成式模拟器,能够实现可扩展的模拟、边缘案例的安全测试以及丰富的合成数据生成。然而,尽管研究活动增长迅速,该领域仍缺乏一个严格的基准来衡量进度和指导优先级。现有的评估仍有局限:通用的视频指标忽略了对安全至关重要的成像因素;轨迹的合理性很少被量化;时间及智能体级的一致性被忽视;且相对于本车条件的受控性被忽略。此外,当前的数据集未能涵盖现实世界部署所需的多样化条件。为了弥补这些空白,我们推出了 DrivingGen,这是首个针对生成式驾驶世界模型的综合基准。DrivingGen 结合了从驾驶数据集和互联网级视频源中提取的多样化评估数据集(涵盖各种天气、时间段、地理区域和复杂操作),以及一套共同评估视觉真实感、轨迹合理性、时间连贯性和受控性的新指标。对 14 个最先进模型的基准测试揭示了明显的权衡:通用模型看起来更好但违背物理规律,而驾驶专用模型能真实捕捉运动但视觉质量落后。DrivingGen 提供了一个统一的评估框架,以促进可靠、受控和可部署的驾驶世界模型的发展,从而实现可扩展的模拟、规划和数据驱动的决策。
查看 arXiv 页面查看 PDF

评论

yangyang
论文作者
论文提交者

DrivingGen 是一个针对驾驶领域生成式世界模型的综合基准测试,具有多样化的数据分布和新颖的评估指标。