河八王转录组SSR和SNP序列特征及系统发育分析

作者:李海碧; 吴杨; 祝开; 桂意云; 韦金菊; 周会; 张荣华; 唐利球; 覃天贤; 刘昔辉*
来源:南方农业学报, 2023, 54(03): 849-858.

摘要

【目的】对甘蔗野生种河八王转录组SSR和SNP序列特征及系统发育进行分析,为深入研究甘蔗属植物分子标记开发、种质资源利用、种群遗传结构和分化历史动态提供参考。【方法】基于河八王转录组数据,利用MISA和SOAPsnp软件对获得的Unigenes进行SSR和SNP位点发掘及序列特征分析,并从JGI数据库下载二穗短柄草、水稻、谷子、高粱、玉米物和拟南芥转录组数据,采用最大似然(ML)方法构建系统发育进化树,并估算物种分歧时间。【结果】通过河八王转录组测序共获得171000000条Raw reads,经过数据过滤获得156800000条Clean reads,经进一步组装后获得130393条Unigenes,其中有14233条Unigenes含有16372个SSR位点,发生频率为12.56%。含有1个以上SSR位点的Unigenes有1839条,复合型SSR位点有656个。SSR重复基元类型丰富,从单核苷酸到六核苷酸重复均有分布,共有612种SSR重复基元种类,数量最多的类型为三核苷酸重复类型(49.16%),其次是二核苷酸重复(25.54%)和单核苷酸重复(18.30%)。在所有的核苷酸重复类型中,重复基元占SSR位点总数比例<0.50%的类型有14种,出现频率较高的3种重复基元分别为CCG/CGG、A/T和AG/CT。SSR序列长度为12~191 bp,其中长度≤25 bp的SSR位点共有15123个,占SSR位点总数的96.23%,其中长度为15 bp的数量最多,占SSR位点总数的32.16%。SSR重复基元的重复次数为4~24次,且以5、6和7次重复为主。河八王转录组序列共有222106个SNP位点,平均每条Unigenes上有1.70个SNP位点,核苷酸转换类型的比例(65.92%)明显高于颠换类型(34.08%),6种单核苷酸变异类型中,A/G发生频率最高(33.07%),其次是C/T(32.84%)。系统发育分析和物种分化时间估算结果显示,河八王与高粱的亲缘关系最近,分化时间为14.6百万年(Ma)。【结论】河八王转录组中SSR和SNP位点非常丰富,具有较高的遗传多态性,说明利用转录组测序开发甘蔗SSR和SNP分子标记是一种切实可行的方法。利用转录组数据构建系统发育进行树的方法可用于其他缺乏基因组数据的物种系统发育研究。