摘要
提出了一种基于深度确定性策略梯度(DDPG, deep deterministic policy gradient)的行人安全智能交通信号控制算法;通过对交叉口数据的实时观测,综合考虑行人安全与车辆通行效率,智能地调控交通信号周期时长,相位顺序以及相位持续时间,实现交叉路口安全高效的智能控制;同时,采用优先经验回放提高采样效率,加速了算法收敛;由于行人安全与车辆通行效率存在相互矛盾,研究中通过精确地设计强化学习的奖励函数,折中考虑行人违规引起的与车辆的冲突量和车辆通行的速度,引导交通信号灯学习路口行人的行为,学习最佳的配时方案;仿真结果表明在动态环境下,该算法在行人与车辆冲突量,车辆的平均速度、等待时间和队列长度均优于现有的固定配时方案和其他的智能配时方案。