摘要
为从公交驾驶员群体中识别出易发生事故的风险公交驾驶员,结合某市公交公司营运安全管理系统数据库、百度应用程序接口(API)及网络爬取技术,并应用K近邻算法补充缺失值,获取42条线路及1 893名驾驶员的数据;基于驾驶员、车辆、线路特征、违规行为、事故、管理等基本特征变量构造派生变量;采用包括递归特征消除、有惩罚项的逻辑回归、随机森林的集成方法选择特征;采用极致梯度提升(XGBoost)等6种机器方法分别建立分类模型,并采用贝叶斯方法优化超参数。结果表明:在构建的6个分类模型中,XGBoost方法构建的模型其受试者工作特征(ROC)曲线下的面积(AUC)评估结果最佳;运用贝叶斯方法优化模型,可以在一定程度上提升ROC的AUC指标;对于风险公交驾驶员预测准确率达到98.66%,运营单位还可以根据自身情况权衡虚报率与命中率代价。此外,车辆服役时间、违规次数等特征对于事故风险具有明显的非线性影响。
-
单位交通运输部公路科学研究所; 长安大学