摘要
随着信息技术的快速发展,近年来深度强化学习方法在交通运输领域得到广泛应用,特别是在交通信号控制领域,已成为当前交通信号控制发展的重要方向。本文针对强化学习在交通信号控制领域应用中存在的随机相位选择导致无法实际应用的问题,提出了一种考虑NEMA双环相位结构的单点交通信号控制强化学习方法。以典型十字交叉口的NEMA双环相位结构为约束,设计优化了在相位切换决策过程中智能体的控制结构,通过增加1个智能体决定前置和后置相位顺序以提升相位切换的灵活性、部署2个智能体决定前置相位是否切换、设置1个智能体同时切断后置相位绿灯,通过经验共享机制,有效降低了状态-动作空间维度,提高了智能体训练效率。在此基础上,采用定制化PPO算法,基于SUMO仿真平台分析了不同交通需求、不同信号参数等场景下的单点深度强化学习信号控制方法的效果。结果表明,在高中低不同交通需求下,本文的方法都优于传统的固定相位相序方法。
-
单位浙江大学; 昆明市公安局