结合多尺度卷积胶囊网络的植物lncRNA编码小肽预测

作者:胡鹤还; 孟军*; 赵思远; 纪腾其
来源:郑州大学学报(理学版), 2022, 54(01): 12-18.
DOI:10.13705/j.issn.1671-6841.2021214

摘要

长非编码RNA(lncRNA)是一类不编码蛋白、长度大于200 nt的非编码RNA。然而,最近研究表明,部分lncRNA中含有不超过300 nt的短开放阅读框(sORFs),具备编码小肽的能力。这一发现使得sORFs编码小肽(SEPs)这一崭新的研究领域引起人们的重视。目前,对SEPs的研究大多采用生物实验和传统机器学习方法。由于生物实验方法造价高、耗时长、传统机器学习涉及过多人工干预,提出一种结合多尺度卷积胶囊网络的深度学习模型,既能够充分提取序列特征,又通过胶囊间的连接进行特征聚类。采用五折交叉验证评估模型性能,在苔藓数据集上与单一深度学习模型和简单融合深度学习模型相比,取得较好的分类效果。另外,采用拟南芥、大豆两个物种的数据集进行独立测试,验证了模型具有良好的泛化能力。