摘要
准确识别出信号肽对蛋白质的研究和定位有着非常重要的意义。压缩感知技术能够在保留生物序列主要信息的同时降低冗余信息,将高维信息投影到低维空间上进行特征提取。因此本文基于压缩感知技术再结合动态时间规整算法提取出新的特征向量,提出一种高鉴别性的信号肽特征提取新方法。该算法所提取的特征不但体现了信号肽中的氨基酸组成、排列顺序、结构等重要信息,还能把信号肽的不同区域在时间维度中非线性地弯曲对整,为机器学习算法提供有效的信号肽特征表达。实验结果显示,新方法提取的特征向量在3个数据集Eukaryotes,Gram+bacteria,Gram-bacteria上的识别率分别达到99.65%,98.05%和98.56%,并且这种方法能简单地运用到其他生物序列的识别过程中。
- 单位