摘要

为了促进对四倍体拟南芥(A.suecica)的研究,阐明多倍体植物在染色体加倍过程中遗传物质的变化,从而在分子层面上解释多倍体植物的环境适应和进化机制,描述了一套基于第二代测序技术的转录组短序列组装和生物信息学分析方法.通过对23 000 000条来至于Illumina测序平台的序列数据进行SOAPdenovo组装,以及后续的TGICL聚类和Phrap拼接,共得到125 953条非冗余的转录本序列,其N50和平均长度分别为550bp和331bp.通过BLASTX比对,共有96 057(76.3%)条转录本序列与Nr数据库中的植物蛋白序列具有高度同源性(e-value<10-5),对转录本序列的GO(gene ontology)要的蛋白功能.另外,将A.suecica转录组的GC含量与其相邻物种进行了比较分析,并对简单重复序列(SSRs)进行了鉴定.研究结果表明基于短序列测序数据的多重kmer组装对于转录组分析的可行性,并且为其他相关物种的转录组组装和基因表达分析提供了重要的参考价值.

全文