摘要
为明析输入特征对交通事故严重度机器学习预测模型的影响,基于1 808条山区二级公路事故数据,选择12个事故严重度的影响因素作为候选特征变量,采用K-means(KM)聚类算法离散化事故严重度的连续特征变量,采用随机森林(RF)算法识别事故严重度的重要特征变量,通过组合3种输入特征变量(候选特征、KM特征、RF特征)和支持向量机(SVM)算法,分别构建事故严重度的3种SVM预测模型(SVM*、KM-SVM和RF-SVM),并分析3种SVM模型的预测性能及适用性。结果表明:通过离散连续变量和识别关键特征参数,可显著提高RF-SVM模型的预测准确率,重伤和死亡事故的预测准确率提高达40%;特征选择对SVM模型性能的影响程度要小于连续变量离散化;RF-SVM模型可获得比二元logistic回归模型更好的预测性能,但对不同输入特征的敏感性较高。
-
单位深圳市城市交通规划设计研究中心; 云南省交通规划设计研究院有限公司; 昆明理工大学