摘要

综合考虑机场的多个约束条件,以最大出港靠桥的航班数作为优化目标建立相应的数学模型,并将其转化成马尔可夫决策过程模型。设计环境的状态空间和智能体的动作空间,将大规模的离散动作空间通过构建特征的方式转变为连续动作空间,提出基于K最近邻(K nearest neighbor,KNN)和深度确定性策略梯度(deep deterministic policy gradient,DDPG)的机位分配算法,即DDPG_KNN.以乌鲁木齐地窝堡国际机场的实际航班数据进行仿真实验来验证模型的有效性,所改进的算法能够提高机位资源的利用率。在对比实验中,DDPG_KNN的效果优于遗传算法。