摘要

目的 利用重采样技术提高我国中老年居民糖尿病不平衡数据的分类预测效果。方法 采用随机欠采样、随机过采样、合成少数类过采样(synthetic minority oversampling technique, SMOTE)以及自适应合成抽样(adaptive synthetic sampling, ADASYN)四种重采样技术处理CHARLS数据库中糖尿病不平衡数据,比较重采样前后logistic回归、支持向量机、随机森林的分类性能,采用G-means和AUC评价模型的预测效果。结果 对CHARLS糖尿病不平衡数据集,logistic回归、支持向量机、随机森林模型的G-means分别为0.222 7、0、0,AUC分别为0.761 2、0.736 3、0.742 9,logistic回归模型显著优于支持向量机,模型准确率(χ2=1 231.501,P<0.001)及AUC值(Z=2.634, P=0.028)的差异均具有统计学意义。四种重采样技术处理后模型的G-means均提高,特别是SMOTE和ADASYN技术;此外,随机欠采样不能显著提高logistic回归(Z=3.027, P=0.003)、支持向量机(Z=0.301, P=0.764)、随机森林(Z=0.446, P=0.656)分类模型的AUC值,随机过采样、SMOTE和ADASYN技术对分类模型的AUC值有不同程度的提高。结论 SMOTE和ADASYN技术可以较好地处理糖尿病不平衡数据的问题,提高糖尿病分类器的预测性能。