摘要
差异表达分析是转录组研究的基本目标之一,对揭示基因功能和调控规律以及选择性剪切的波动变化具有重要作用.基因芯片与RNA-Seq是当前主流的测量转录组表达水平的两种实验平台,并被广泛应用于转录组差异表达分析.随着测序技术的发展,测序成本不断降低,许多研究采用多种测量平台以获得更为准确的结果.当前公共数据库中积累了大量的基因芯片和RNA-Seq表达数据,为多平台转录组数据分析提供了研究空间.研究表明:融合多平台表达数据能够提高差异表达分析的准确性和可靠性.大多数现有的融合多平台表达数据的差异检测研究主要对多种类型的基因芯片表达数据进行融合,较少考虑RNA-Seq表达数据.并且现有方法忽略了很多有用的信息,例如测量误差和重复实验产生的波动性.针对现有方法存在的问题,该文提出了融合多平台转录组数据的差异检测模型mpDE(multi-platform Differential Expression model),寻找差异表达的基因和异构体.该模型将不同实验平台的表达数据和表达水平的技术性测量误差融入到模型中,同时考虑了同一平台在不同条件下的生物重复或技术重复的波动性,从而提高差异检测准确度.该文将mpDE应用到两个人类多平台表达数据集进行差异表达检测,涉及了Affymetrix的传统3’芯片、外显子芯片、HTA2.0芯片,RNA-Seq四种常用的转录组表达水平测量平台.该文将mpDE计算结果与单平台的差异检测结果和其他多平台表达数据融合算法进行了对比.实验结果表明,mpDE获得了更为准确的差异检测结果,差异基因检测准确率与以往方法相比提高了2%8%;差异异构体检测准确率提高了1%15%.
- 单位