摘要

本发明公开了一种基于深度学习的第三代测序数据的自校正纠错方法,该方法是通过对第三代DNA测序数据进行质量控制,得到高质量的测序序列;将高质量测序序列与其对应的参考基因组进行比对,得到比对序列MSA;对高质量测序序列生成的MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;将图像视为训练集,训练深度学习模型;对未纠错的序列uncorrected reads执行自我比对,得到比对序列uncorrected MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;将uncorrected reads编码成的图像,输入训练完成的深度学习模型中进行分类,若分类结果与真实图像中心位置碱基种类不匹配,则纠正真实图像;对纠正后的图像进行反编码,生成纠错后的corrected reads。