摘要
为提高车辆驾驶安全性并充分考虑人类驾驶员对于自动驾驶控制系统的接受度,研究并实现了自动驾驶车辆在换道场景下的精确决策学习。汽车自动驾驶不仅需要决策是否换道,还需要决定汽车的具体微观行为,如换道时间和期望加速度的确定等,因此,车道变换的精确决策需使用3个参数来描述,并需要通过强化学习求解。这种基于参数精确决策的合理性体现在两个方面:首先是不同的决策参数值会影响规划的轨迹,如果决策不精确,将产生运动的不确定性;其次是基于真实交通数据(NGSIM)的分析,因为人类换道行为在换道时间和期望加速度上存在显著的差异性,在当前的决策研究中很少被明确考虑。此外,发现NGSIM数据中存在一些潜在的紧急情况,可以通过优化部分决策参数来提升其安全性;在强化学习算法的设计中,动作过程中加入换道时间和期望加速度;奖励函数考虑了安全性、当前驾驶员的意愿和平均人类驾驶风格;问题求解中,自定义了基函数,并通过基于核函数的最小二乘策略迭代强化学习方法学习精确的安全决策行为。仿真结果表明,使用强化学习参数决策可以实现更精确的决策,从而提高安全性能,并可在变道场景中模仿人类驾驶员的行为。
-
单位吉林大学; 汽车仿真与控制国家重点实验室