摘要
目的 研究疾病预测模型存在的类别不平衡性与不可解释性难题。方法 结合极限梯度提升(eXtreme gradient boosting, XGBoost)、混合采样和Shapley加法解释(shapley additive exPlanations, SHAP)分析,提出一种面向不平衡数据的心脏病风险预测可解释性框架ICRPI。结果 该框架下的风险预测模型平衡准确度为0.942 50,AUC为0.986 03,模型可视化分析获得高龄、高体质量指数(body mass index, BMI)值、患有糖尿病等9个心脏病危险因素,并得出高龄的糖尿病患者、高BMI值且诊断为糖尿病或临界糖尿病患者、高BMI值且缺乏体力活动群体为患心脏病高危群体,临界糖尿病人群参与体力活动可降低患心脏病风险。结论 ICRPI框架适用于真实临床不平衡数据分析,且能明确给出致病风险因素及其相关性,可有效提高临床诊断准确率的同时为医生提供致病因素分析,智能辅助医生临床诊疗。
- 单位