⏶2
CaRL: 使用简单的奖励学习可扩展的规划策略
发表
由
Bernhard Jaeger 提交

作者: Bernhard Jaeger, Daniel Dauner, Jens Beißwenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger
摘要
我们研究强化学习(RL)在自动驾驶特权规划中的应用。目前解决此任务的最先进方法是基于规则的,但这些方法无法应对长尾情况。另一方面,RL 具有可扩展性,并且不会像模仿学习那样遭受复合误差的影响。当前用于驾驶的 RL 方法使用复杂的塑造奖励,这些奖励累加了多个单独的奖励,例如进度、位置或方向奖励。我们发现,在增加 mini-batch 大小时,PPO 无法优化这些奖励的一种流行版本,这限制了这些方法的可扩展性。相反,我们提出了一种新的奖励设计,主要基于优化一个单一的直观奖励项:路线完成度。违规行为通过终止回合或乘法降低路线完成度来惩罚。我们发现,当使用我们的简单奖励进行训练时,PPO 在更高的 mini-batch 大小下表现出良好的可扩展性,甚至能提高性能。使用大型 mini-batch 大小进行训练可以通过分布式数据并行化实现高效扩展。我们使用单个 8-GPU 节点在 CARLA 中将 PPO 扩展到 3 亿样本,在 nuPlan 中扩展到 5 亿样本。最终模型在 CARLA longest6 v2 基准测试中达到 64 DS,大幅优于使用更复杂奖励的其他 RL 方法。该方法在 CARLA 中使用时仅需少量调整,在 nuPlan 上是最佳的基于学习的方法。在 Val14 基准测试中,它在非反应式交通中得分 91.3,在反应式交通中得分 90.6,同时比之前的工作快一个数量级。
我们提出 CaRL:通过简单奖励学习可伸缩的规划策略。
我们展示了简单奖励如何能够扩展 PPO 用于规划。
CaRL 在 nuPlan Val14 和 CARLA longest6 v2 上优于所有先前的基于学习的方法,同时使用更少的推理计算。