针对软件缺陷预测时普遍存在的样本缺陷数据不平衡、特征冗余等问题,引进稀疏自编码(SAE)神经网络并加以改进,提出了一种新的分类模型。模型结合了SAE神经网络和少数样本合成过采样技术(SMOTE)的优点,可弥补传统分类方法在软件缺陷预测时忽视少数类分类效果、不能很好地保留数据内部特征等不足。基于NASA软件缺陷公共数据库中多个数据集的实验结果表明:提出的模型在软件缺陷预测方面的分类效果明显优于其他算法,尤其提高了不平衡数据集中少数类的分类精度。