摘要
基于R语言,将R程序包Rsubread、Rsamtools、refGenome和GenomicRanges整合为一个完整的流程,实现了基因表达芯片探针序列的自主注释。以应用范围最广的GPL570,GPL10558和曾使用的GPL21163芯片平台为测试数据进行重注释,并将GPL570的新注释与现存的注释做比较;对较新的长链非编码RNA表达芯片GPL16956进行自主注释,以测试流程的实用性。结果表明:GPL570的自主注释覆盖到了89.58%的探针,GPL10558、GPL21163和GPL16956的自主注释分别覆盖到了81.54%、84.68%和76.15%的探针。在GPL570新注释单独比对到的7 107个基因中,有411个编码蛋白的基因能够富集到GO条目,而另外两种注释未能比对到这些基因,证明了本流程的可靠性和先进性。因此,本流程实用、有效,为数据挖掘工作提供了新的有力工具。
-
单位珠海健明生物医药科技有限公司; 山东农业大学