摘要

通过机器学习算法对大学初期的学生学业表现进行预测和可解释性研究。利用One-Hot对离散型变量进行编码,Lasso提取和降维特征变量,基于随机森林、XGBoost、朴素贝叶斯和逻辑回归等机器学习算法训练模型,借助SHAP对最优模型(随机森林)特征进行解释。研究结果表明,对于不同层次学业表现的学生,影响他们的因素是存在差异的。其中,高考成绩(如数学成绩、英语成绩)、学生对录取专业或系别的满意度、在校比赛的表现与操行表现情况对学生学业表现都存在明显的影响。通过学生的倾向性指标信息能够对学生在大学初期的学业表现做出基本判断,可以根据学生的基本信息提前关注和介入可能存在学业困难的学生。