摘要
为更好地对高速公路通行情况进行分析,利用高速公路海量收费数据,提出了一种用于高速公路通行情况分析的数据挖掘方法。首先,在海量的贵州省高速公路收费数据中,筛选出指定进站名称及出站名称的数据并删除部分字段,仅保留与研究相关的内容,利用车辆进入收费站的时间和驶出收费站的时间计算出其在该路段上行驶的总时长,将行驶时长字段加入原数据。然后,采用孤立点检测算法清洗该数据,剔除其中异常值。完成上述预处理过程后,使用快速峰值聚类算法对行驶时长进行聚类分析,首先计算每条数据之间的距离,将距离矩阵作为该算法的输入并输出聚类结果;对比所采用的算法与K-Means算法对于行驶时长这一指标的聚类效果,可明显地看出该算法的聚类结果更接近于实际情况;然后将春节期间与2月第4周的收费数据进行聚类,通过对比可明显得出节假日期间各个车型通行比例的变化;将上述结果结合不同车型在不同时段的平均通行时间进行分析。研究结果表明:所提出的方法可有效地将在某段高速公路通行的车辆进行分类,并且分类结果与真实运行过程中车辆在高速公路上的通行情况一致,可为高速公路的运营管理以及维护方向提供合理的科学依据和数据支持。
-
单位陕西省交通运输厅