基于第三代纳米孔测序技术的东方蜜蜂微孢子虫全长转录组构建及注释

作者:陈华枝; 杜宇; 范小雪; 祝智威; 蒋海宾; 王杰; 范元婵; 熊翠玲; 郑燕珍; 付中民; 徐国钧; 陈大福*; 郭睿*
来源:昆虫学报, 2020, 63(12): 1461-1472.
DOI:10.16380/j.kcxb.2020.12.004

摘要

【目的】本研究旨在利用Oxford Nanopore测序技术组装和注释东方蜜蜂微孢子虫Nosema ceranae的高质量全长转录组。【方法】采用Nanopore PromethION系统对东方蜜蜂微孢子虫的纯净孢子进行转录组测序。通过识别每条clean read两端引物鉴定全长转录本序列。利用Blast工具将全长转录本比对Nr, Swiss-Prot, KOG, eggNOG, Pfam, GO和KEGG数据库,获得相应注释信息。分别利用蛋白结构域分析方法CPC, CNCI, CPAT和Pfam对长链非编码RNA(long noncoding RNA, lncRNA)进行预测,获得高可信度lncRNA。利用CPM(counts per million)法计算每一条全长转录本的表达量。【结果】利用Nanopore PromethION系统对东方蜜蜂微孢子虫转录组测序共测得6 988 795条raw reads,经质控获得6 953 469条clean reads,其中包含5 143 999条全长转录本。共鉴定到10 243条非冗余全长转录本,N50和平均读长分别为1 042 bp和894 bp,最大读长为4 855 bp。有9 342, 4 038, 4 283, 2 569, 4 859和3 450条全长转录本分别注释到Nr, KOG, eggNOG, Pfam, GO和KEGG数据库。注释到东方蜜蜂微孢子虫、蜜蜂微孢子虫Nosema apis和家蚕微孢子虫Nosema bombycis的全长转录本数量最多。共鉴定到87条高可信度lncRNA,包含49条正义链lncRNA(sense lncRNA)、25条反义链lncRNA(anti-sense lncRNA)和13条基因间区lncRNA。本研究的测序量足以检测到全部表达的全长转录本,全长转录本的表达量(CPM)范围在0.1到10 000以上。【结论】本研究构建和注释了东方蜜蜂微孢子虫的高质量全长转录组数据,可为病原的比较转录组分析、转录本的可变剪接和可变腺苷酸化分析、简单重复序列(simple sequence repeat, SSR)位点挖掘、基因结构优化以及基因全长序列克隆及功能研究提供关键基础。