摘要
植物病毒衍生的小干扰RNA(Virus-derived siRNAs, vsiRNAs)能够调节多种生物学过程,在抗病毒免疫中发挥着非常重要的作用。因此,植物vsiRNAs的识别有助于了解其生物发生机制,对研究抗病毒植物具有重要意义。虽然,现在已有多种实验方法通过检测RNA来寻找vsiRNAs,但是实验测试费时费力费钱。在本文中,我们从PVsiRNAdb数据库中提取植物vsiRNAs序列,基于长短时记忆神经网络(Long Short-Term Memory neural network, LSTM)与vsiRNAs序列,开发了一种深度学习算法——PVsiRNAPred-LSTM,用于预测植物vsiRNAs。PVsiRNAPred-LSTM可以自动学习并选择与预测任务相关的重要特征。为了防止模型过拟合,我们使用了五折交叉检验来训练模型。在五折交叉检验测试中,该模型的准确率为64.38%,灵敏度(Sn)为66.44%,精确度(Pr)为60.51%,F1值为0.64,特异性(Sp)为56.63%,马修斯相关系数(MCC)为0.23,AUCROC为0.67。以上结果表明PVsiRNAPred-LSTM取得了良好的预测效果,我们希望通过PVsiRNAPred-LSTM这一生物信息学算法来预测植物vsiRNAs,帮助找到新的植物vsiRNAs。
- 单位