摘要
现如今我国城市道路网络迅速扩大,城市道路交通拥挤状况加剧。传统的定时控制和感应控制不再适应交通环境的多变性、随机性及不确定性。针对Q学习算法只考虑新的状态下获得的最大奖赏,而不考虑新状态带来的风险,将Sarsa学习应用于单交叉口配时优化方法中,Sarsa学习在目标选择策略中有着既考虑最优值,又考虑探索作用值的优点。以单交叉口平均延误最小为优化目标,确定最优策略,并在VisSim中进行仿真,在仿真检验阶段1 000个步长后,Sarsa学习的车辆平均延误相比于Q学习减少了1.277s。结果表明Sarsa学习算法在配时优化延误指标上优于Q学习。
-
单位电子信息工程学院; 西安工业大学