摘要
针对在不平衡的贫困学生数据中,传统的机器算法在分类时会偏向于多数类而忽略少数类,而导致少数特困类的分类准确率低的问题,提出了一种基于代价敏感的贫困生分类方法(CMPSC)。首先采取基于特征选择的预处理方法对低质量的贫困生数据进行处理;然后使用基于遗传算法的搜索方法确定贫困生数据的最优代价敏感矩阵;最后由经预处理的贫困生数据构建兼顾少数贫困类的代价敏感分类器,降低多数贫困类的影响。使用多个真实广西贫困生数据集进行对比实验,以CART算法为基准线,CMPSC方法平均总体分类准确率浮动值为0.66%,平均特困类分类准确率提升率为6.3%,最高提升率可达14.7%。本文方法可以在保持总体分类准确率的同时,有效提高少数特困类的分类准确率。
- 单位