摘要
在实际生活中,不平衡数据往往是常态,比如医疗领域。在机器学习分类问题中,如果不考虑类别不平衡,直接构建机器学习模型往往会得出过于乐观甚至无用的分类结果。针对不平衡数据分类问题,从数据分布、模型算法和评估指标三方面提出处理方法。选取pima印第安人糖尿病数据集,应用SMOTE过采样技术处理数据,并构建随机森林模型和GBDT模型。然后选取查准率(precision)、召回率(recall)、f-度量(f1-score)和AUC(ROC曲线下面积)作为重要评估指标。最后通过实验结果的对比和分析,选取综合表现最好的GBDT模型,将其应用于疾病诊断系统,以期助力推动医疗领域的进步。
- 单位