摘要
无信号灯左转路口是自动驾驶场景中最为危险的场景之一,如何实现高效安全的左转决策是自动驾驶领域的重大难题。深度强化学习(Deep Reinforcement Learning,DRL)算法在自动驾驶决策领域具有广阔前景。但是,深度强化学习在自动驾驶场景下存在样本效率低以及奖励函数设计困难等问题。因此提出一种基于专家先验的深度强化学习算法CBAM-BC-SAC来解决上述问题。首先,利用SMARTS仿真平台获得专家先验知识。然后,使用通道-空间注意力机制(Convolutional Block Attention Module,CBAM)改进行为克隆(Behavior Cloning,BC),在专家先验知识的基础上预训练模仿专家策略。最后,使用模仿专家策略指导深度强化学习算法的学习过程,并在无信号灯路口左转决策中进行验证。实验结果表明,基于专家先验的DRL算法比传统的DRL算法更具优势,不仅可以免去人为设置奖励函数的工作量,并且可以显著提高样本效率从而获得更优性能。在无信号灯路口左转场景下,CBAM-BC-SAC算法与传统DRL算法SAC、基于传统行为克隆的DRL算法BC-SAC相比,分别提高了14.2%、2.2%的通行成功率。
- 单位