摘要
针对基因表达谱数据,建立机器学习模型,进行数据挖掘,有助于疾病诊断和发展精准医疗.由于基因表达谱的分析结果受到数据处理平台、数据格式、数据批次等因素的影响,因此,研究人员希望有统一的数据处理平台和数据处理方法,以降低这些影响,提升分析结果的准确性.基于R语言设计并实现了基因表达数据处理工具包GEDPT,旨在对数据库GEO和TCGA的基因表达谱进行统一处理,包括预处理、基因注释、表型注释、样本分组、差异分析和分析结果可视化等.利用GEDPT分析了人类直肠癌放疗相关的基因表达谱,得到了与相关文献报道一致的结果;通过对比基因分布发现,GEDPT对多个微阵列原始数据采用相同的预处理可以降低批次效应带来的负面影响.测试结果验证了GEDPT的实用性和有效性.
- 单位