摘要

[背景]职业伤害影响因素的识别分析是特征选择的重要研究内容,随着机器学习算法兴起,特征选择结合Boosting算法模型构建可为职业伤害预测分析中提供新的分析思路。[目的]探讨基于Boosting算法模型在预测矿工非致命性职业伤害严重等级中的适用性,为科学合理地预测矿工非致命性职业伤害严重等级提供依据。[方法]应用美国矿山安全与健康管理局(MSHA)2001—2021年金属矿工非致命性职业伤害的公开数据,以损失工作日天数<105 d为轻伤、≥105 d为重伤作为结局变量。通过最小绝对收缩与选择算子算法(Lasso)回归、逐步回归、单因素+Lasso回归、单因素+逐步回归4种特征选择方法分别筛选出4个不同特征集。选择基于Boosting思想的梯度提升决策树(GBDT)和极端梯度提升算法(XGBoost)两种模型,应用4个特征集分别训练logistic回归、GBDT、XGBoost三种模型,共形成12种矿工非致命性职业伤害严重等级预测模型,以获取预测模型的曲线下面积(AUC)、灵敏度、特异度、约登指数为主要评价指标。[结果]根据4种不同特征选择方法,年龄、事故发生时间、总工龄、伤害发生原因、伤害发生活动、受伤部位、伤害性质、伤害结局8个特征是影响矿工非致命性职业伤害严重等级的主要影响因素。单因素+逐步回归筛选的特征集4为最优特征集并且其构建的GBDT模型对非致命性职业伤害严重等级预测效能最佳,特异度、灵敏度、约登指数分别为0.753 0、0.949 0、0.702 0。特征集4构建logistic回归、GBDT、XGBoost预测模型的AUC值分别为0.852 6(95%CI:0.838 7~0.875 0)、0.864 0(95%CI:0.847 4~0.880 6)、0.860 3(95%CI:0.843 9~0.877 3),均比逐步回归筛选的特征集2所构建的预测模型AUC值[0.848 7(95%CI:0.820 3~0.866 9)、0.811 0(95%CI:0.801 2~0.834 4)、0.843 9(95%CI:0.824 5~0.856 1)]高,并且特征集4构建GBDT、XGBoost均比logistic回归预测模型AUC值高。[结论]两种特征选择方法比单一特征选择筛选的预测因子构建的预测模型性能更优。同时在最优特征集条件下,基于Boosting思想构建的非致命性伤害严重程度预测模型与传统逻辑回归预测模型相比性能更优。

全文