摘要

随着国内民航领域的飞速发展,航班延误次数及程度也在不断加深。因此,各航空公司对于航班延误时间预测的需求就更加强烈。采用随机森林回归算法来进行航班延误的预测。其中使用的原始数据来自于美国交通统计局(BST)上发布的数据。首先,对原始数据进行处理,通过分析影响航班到港时间的因素进行特征筛选,并进行数据清洗。然后,训练模型,并使用Grid-Search和交叉验证法选取最优的参数。最后,与支持向量机回归与岭回归算法进行对照分析,发现随机森林有较好的预测效果。实验结果显示,延误预测的R-squared为0.91和平均绝对误差为10.56分钟。