摘要
目的研究类不平衡是否会给基因表达数据的类别预测带来额外挑战,通过公开数据集评估7种分类器在不同类平衡比例数据上的表现,旨在为后续研究提供理论基础。方法在真实数据集上按不同比例抽取样本组成训练集(阴性样本量Nn=10,阳性样本量Np=10,15,20,30,35;Nn=15,Np=5,10,15,25,30)和测试集(Nn=20,Np=20),组成10组新数据集,并选取常用7种分类算法(SVM、C4.5、NB、RF、KNN、AdaBoost、Bagging)对10组新数据集进行分析,比较单次抽样分类与100次抽样平均的分类效果。结果随着数据集中阳性样本量的增加,分类算法整体灵敏度呈上升趋势,而特异度呈下降趋势。结肠癌数据集中,AdaBoost、NB和RF算法表现较好,支持向量机表现较差且不稳定。在白血病数据集中,NB算法整体表现最优且稳定,AdaBoost、C4.5和RF算法分类效果较好但波动较大。结论基因表达数据集中类平衡比例、数据特征和分类算法类别均会影响类别预测结果,且单次分析结果具有偶然性,复现性较差,故分析类不平衡数据时应结合类分布比例谨慎选择适当的算法。
- 单位