CoIRL-AD:用于自动驾驶的潜世界模型中的协作-竞争模仿-强化学习

发表
Xiaoji ZhengXiaoji Zheng 提交
作者: Xiaoji ZhengXiaoji Zheng, Ziyuan Yang, Yanhao Chen, Yuhang Peng, Yuanrong Tang, Gengyuan Liu, Bokui Chen, Jiangtao Gong

摘要

仅通过模仿学习 (IL) 训练的端到端自动驾驶模型通常泛化能力较差。相比之下,强化学习 (RL) 通过奖励最大化促进探索,但面临样本效率低下和收敛不稳定等挑战。一个自然的解决方案是将 IL 和 RL 结合起来。我们超越了传统的两阶段范式(IL 预训练后进行 RL 微调),提出了 CoIRL-AD,一个竞争性的双策略框架,允许 IL 和 RL 代理在训练期间进行交互。CoIRL-AD 引入了一个基于竞争的机制,该机制促进知识交换,同时防止梯度冲突。在 nuScenes 数据集上的实验表明,与基线相比,碰撞率降低了 18%,并且在长尾场景中具有更强的泛化能力和更高的性能。代码可在:https://github.com/SEU-zxj/CoIRL-AD 获取。
查看 arXiv 页面查看 PDF
CoIRL-AD:用于自动驾驶的潜世界模型中的协作-竞争模仿-强化学习

评论

Xiaoji ZhengXiaoji Zheng
论文作者
论文提交者

我们提出了一个新颖的训练框架,通过使用潜在的世界模型来集成模仿学习和强化学习。在 nuScenes 数据集上的实验结果表明,与基线方法相比,在泛化能力和长尾场景的表现方面都有显著提高。
🤗
主页:https://seu-zxj.github.io/CoIRL-AD/
论文:https://arxiv.org/abs/2510.12560
GitHub:https://github.com/SEU-zxj/CoIRL-AD
模型:https://huggingface.co/Student-Xiaoji/CoIRL-AD-models