摘要
利用RNA-seq技术对所构建的楮头红叶片的转录组进行测定,对原始reads进行过滤和组装,得到了51 305条质量较高的Unigenes,平均长度为921 nt,N50为1 490 nt。利用BLAST和BLAST2GO软件对这些从头组装的Unigenes进行注释。用NCBI蛋白质数据库(Nr)、非冗余核苷酸数据库(Nt)、基因本体论(GO)、直系同源基因簇(COG)和京都基因与基因组百科全书(KEGG)数据库做参考,共注释了40 532条Unigenes。注释到Nr、Nt、Swiss-Prot、KEGG、COG和GO库中的比例相对较高,分别为77.53%、56.18%、53.14%、46.58%、29.69%和60.72%。在蛋白质数据库中对所有的Unigenes进行blast以后,发现有39 302个CDS,用ESTscan预测了2 065个CDS。KEGG通路分析显示,参与次生代谢物生物合成的Unigenes有2 323条,占全部Unigenes的9.72%。其中有78条Unigenes编码了细胞色素P450家族蛋白,这些信息为药用植物次生代谢物生物合成关键基因的挖掘提供了理论参考。
-
单位生命科学学院; 中国科学院; 肇庆学院