摘要

在交通流数据挖掘领域中,交通流预测占据着相当重要的地位。特别的,由于交通流数据具有数据量大、维度高、非线性等特征,对预测数据训练集的选取更加关键。文中以包含多影响因子的交通流数据为研究对象,综合考虑了交通流量、天气以及日期属性等交通数据特征。数据的特征较多,维度较高。基于此,在对数据进行合适的数据清洗后,提出并实现了一种梯度提升决策树的自适应选择方法,对应用于动态交通流预测模型的数据集进行特征选择。以分类和回归决策树作为基学习器,采用梯度提升决策树算法进行回归拟合。通过迭代过程中每棵决策树产生的基尼指数和分裂特征属性的次数来计算特征重要度,并采用二次下降法对特征进行自适应选择,实现对交通流数据重要特征的自动选取。最后,通过实验数据论证了提出的算法和模型。