摘要
目的:找出胶质瘤病变发生机制相关的基因群,并在此基础上建立预测胶质瘤病变发生的预测模型。方法:收集GEO中胶质瘤芯片数据,使用关联特征选择(Correlation-based Feature Subset, CFS)和最小冗余最大相关性(Minimum Redundancy MaximumRelevance, mRMR)特征选择方法筛选出差异基因,分析这些差异基因的功能,然后使用Adaboost算法建立胶质瘤的预测模型,并对模型的预测能力进行评估。结果:通过特征筛选,得到了19个和胶质瘤病变相关的的基因;以该19个基因建组成特征子集,结合AdaBoost算法建立了胶质瘤的预测模型,经验证,模型的预报准确率可以达到95.59%。通过对19个差异基因的GO和KEGG分析,发现这些基因和肿瘤的发生发展有一定作用。结论:CFS-mRMR特征筛选方法可以有效地发现与胶质瘤疾病有关的基因,所筛选的19个差异基因具有生物学意义,且以此构建的胶质瘤预测模型,可以有效地对预测胶质瘤的发生。
- 单位