基于粒子群优化算法的白血病基因表达样本分类研究

作者:刘亚杰; 高莲; 周杰; 姚瑞晗; 朱玲; 王晓燕*
来源:生物医学工程与临床, 2020, 24(01): 75-80.
DOI:10.13339/j.cnki.sglc.20200107.015

摘要

目的基于分子生物学的微阵列基因表达数据和智能优化算法对白血病肿瘤样本进行分类研究。方法给出基于粒子群优化(PSO)算法用于分类模型的训练和测试,选取含7 129个基因的72个白血病基因表达样本,从中选取包含50、100和200个特征基因的3组数据,在不同基因数条件下分别执行10次分类测试。建立基于K-均值算法的分类模型,在同等条件下验证PSO算法分类性能。使用准确率、精确率、召回率、F1值等机器学习指标及Boxplot和Heatmap图谱用于分析对比。结果 PSO算法用于分类测试的数据分别含20例急性淋巴细胞白血病(ALL)和14例急性髓细胞白血病(AML)样本。10次分类结果的平均分类准确率均在90%左右;PSO算法的分类准确率并不稳定,10次分类测试中,准确率的平均值和最优值间存在明显差异;ALL亚型的召回率明显高于AML亚型,均接近100%,但AML亚型的精确率明显高于ALL亚型,均接近100%,F1值可比性不大。K-均值算法与PSO算法类似,分类性能随着基因数的增加而降低;K-均值算法在200基因数条件下分类结果较差,分类稳定性和准确率均出现大幅下降,且低于同等条件下PSO算法分类结果;100个基因数条件下,ALL亚型召回率为100%,高于AML亚型;AML亚型精确率为100%,高于ALL亚型;200个基因数条件下,平均值中ALL亚型召回率和F1值高于AML亚型,AML亚型精确率高于ALL亚型,其最优值的统计学指标差异不大。相同白血病肿瘤样本的不同特征基因数条件下,PSO算法可获得较高准确率的分类结果,但分类稳定性不足,整体上优于K-均值算法。结论 PSO算法能够应用于白血病基因表达样本的分类研究。