摘要
目的 不平衡样本在医疗、金融等领域普遍存在,其分类的准确性至关重要,而目前的算法如决策树、逻辑回归等传统机器学习算法对不平衡数据少数类的分类精度较低,因此优化不平衡样本的分类性能非常必要。方法以中风数据集为例,从数据层、特征层、算法层三个层面对不平衡数据集建立最优化预测模型,在数据层采用SMOTEENN采样技术,在特征层采用基于随机森林的递归消除法,在算法层采用CatBoost、XGBoost集成算法。结果通过模型性能对比,得出了预测性能最佳的最优化预测模型:“SMOTEENN采样+基于随机森林的特征递归消除法(RFRFE)+XGBoost分类算法”模型,该模型可提高中风预测准确率,便于民众进行中风患病风险预估,为医生决策提供参考,也可推广应用于疾病类不平衡样本的风险预测问题。
-
单位太原工业学院