摘要

高校贫困生的贫困程度判定可以归属于构建分类模型对样本数据进行训练。但单个分类模型的精准度要取决于处理样本数据的大小和类型复杂度,在模型速度和准确性之间不易取舍。集成多个分类算法可以避免单个分类算法的过拟合。通过邻域分量分析(Neighborhood Component Analysis, NCA)进行特征降维降低初始分类模型的计算成本,对误判损失引入一个成本函数进行惩罚的同时采用贝叶斯优化进行超参数调优。结果表明,改进后的分类模型泛化能力得到明显提升。计算时间成本降低的同时,误判率由初始的8%下降到5%,模型的准确率提升了近4%。