摘要
提高人类驾驶人的接受度是自动驾驶汽车未来的重要方向,而深度强化学习是其发展的一项关键技术。为了解决人机混驾混合交通流下的换道决策问题,利用深度强化学习算法TD3 (Twin Delayed Deep Deterministic Policy Gradient)实现自动驾驶汽车的自主换道行为。首先介绍基于马尔科夫决策过程的强化学习的理论框架,其次基于来自真实工况的NGSIM数据集中的驾驶数据,通过自动驾驶模拟器NGSIM-ENV搭建单向6车道、交通拥挤程度适中的仿真场景,非自动驾驶车辆按照数据集中驾驶人行车数据行驶。针对连续动作空间下的自动驾驶换道决策,采用改进的深度强化学习算法TD3构建换道模型控制自动驾驶汽车的换道驾驶行为。在所提出的TD3换道模型中,构建决策所需周围环境及自车信息的状态空间、包含受控汽车加速度和航向角的动作空间,同时综合考虑安全性、行车效率和舒适性等因素设计强化学习的奖励函数。最终在NGSIM-ENV仿真平台上,将基于TD3算法控制的自动驾驶汽车换道行为与人类驾驶人行车数据进行比较。研究结果表明:基于TD3算法控制的车辆其平均行驶速度比人类驾驶人的平均行车速度高4.8%,在安全性以及舒适性上也有一定的提升;试验结果验证了训练完成后TD3换道模型的有效性,其能够在复杂交通环境下自主实现安全、舒适、流畅的换道行为。
-
单位现代汽车零部件技术湖北省重点实验室; 武汉理工大学