⏶5
PRIX: 从原始像素学习规划用于端到端自动驾驶
发表
由
Maciej Wozniak 提交
作者:
Maciej K. Wozniak, Lianhang Liu, Yixi Cai, Patric Jensfelt
摘要
尽管端到端自动驾驶模型展现出有前景的结果,但其实际部署常受限于庞大的模型尺寸、对昂贵 LiDAR 传感器的依赖以及计算密集型的 BEV 特征表示。这限制了它们的扩展性,特别是对于仅配备摄像头的量产车辆。为了应对这些挑战,我们提出了 PRIX(Plan from Raw Pixels)。我们新颖且高效的端到端驾驶架构仅使用摄像头数据运行,无需显式的 BEV 表示,也无需 LiDAR。PRIX 利用视觉特征提取器与生成式规划头相结合,直接从原始像素输入中预测安全轨迹。我们架构的核心组件是上下文感知重校准 Transformer(Context-aware Recalibration Transformer, CaRT),这是一个旨在有效增强多级视觉特征以实现更鲁棒规划的新模块。我们通过全面的实验证明,PRIX 在 NavSim 和 nuScenes 基准测试中取得了最先进的性能,与更大、多模态的扩散规划器能力相当,同时在推理速度和模型尺寸方面显著更高效,使其成为实际部署的实用解决方案。我们的工作是开源的,代码将位于 https://maxiuw.github.io/prix。
一种高效、仅使用摄像头、端到端自动驾驶模型,无需激光雷达或显式BEV表示即可实现最先进的性能。