摘要

为精细化布局冗余时间,提升运行图抗干扰能力,本文考虑多种列车最小间隔时间约束,提出了基于深度强化学习的列车运行图停站-区间冗余时间联合优化模型。首先,基于武广高速铁路列车运行实绩,研究冗余时间作用特点及布局影响因素。其次,基于决策树回归算法构建环境模型,预测不同冗余时间下的列车晚点恢复效率;基于马尔可夫决策过程中的循环反馈结构,构建后验晚点时空分布学习闭环;基于Proximal Policy Optimization算法构建智能体。最后,进行实例验证,结果表明:(1)相比于线性优化结构,基于循环反馈优化结构的模型具有更准确的后验晚点时长估计精度,平均提升约11.8%;(2)本文模型收敛稳定,平均提升列车晚点恢复效率约14.87%,最高约45.17%。

全文