摘要
长链非编码RNA(lncRNA)的亚细胞位置信息对于了解其复杂的生物学功能和生物学过程具有重要的意义。建立了一个lncRNA的亚细胞定位数据集,包括细胞核、细胞质基质、核糖体和外泌体四个位置,提取了lncRNA的多种特征信息,并对各类特征进行了特征融合。在利用SMOTE(Synthetic Minority Oversampling Technique)方法对数据集进行平衡优化的基础上,采用支持向量机(SVM)算法对lncRNA的亚细胞定位进行分类预测。Jackknife检验结果显示总体预测成功率可达98.54%,表明所提取的特征信息对于lncRNA的亚细胞定位预测有很好的效果,可以为了解lncRNA的生物学功能提供帮助。
- 单位