摘要

面对医疗数据中存在的不平衡现象,本文采用SMOTEENN采样,该方法可以降低过采样带入过多噪声的缺陷,同时也可以克服欠采样剔除关键信息的不足,进一步提升少数类的识别率,并选择Catboost算法对数据进行学习训练,进一步提升数据分类的效果。这对于不平衡数据集的分类问题,具有一定的借鉴意义。