摘要

匝道合流区是公路、快速路、隧道等快速道路的交通瓶颈.为缓解匝道合流区的交通拥堵,基于强化学习理论中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,提出了以匝道调节率和信号周期共同作为动作向量输入的匝道信号控制模型,该模型通过增设不定周期这一控制动作,拓展动作空间,使交通状态被模型更充分感知和学习,增加了模型的求解空间和优化能力,克服了只以固定周期为前提的动作输入致使输出方案并非最优解的问题.通过在SUMO中搭建仿真场景,测试所提出算法的有效性,并与其他算法进行了控制效果对比.结果表明,本文提出的模型C&R-DDPG可以显著提升效率和安全水平,对比无控制、ALINEA控制和只以匝道调节率为动作的控制,平均行程时间分别减少52.3%、31.6%、15.5%;平均延误分别下降66.3%、36.1%、11.5%;匝道平均排队长度分别减少30.2%、23.1%、9.1%;平均加速度平方和分别降低87.5%、77.7%、66.9%.