摘要

提出了一种基于位置关系拓展的改进词袋模型.该模型在传统词袋模型的基础上,结合马尔科夫假设对聚类单词提取位置关系图谱,并对关系图谱进行特征转换,将得到的图谱特征与基于传统词袋模型得到的词袋特征融合作为模型最终特征表示,解决了传统词袋模型中忽略特征单词之间的空间位置信息进而导致特征区分度不足的问题.模型采用词嵌入方法对稀疏图谱进行密集表示,并结合卷积神经网络构建特征学习框架,相比于池化等算法,能更加全面地反映图谱特征的分布规律.将改进词袋模型应用于蛋白质亚细胞区间定位预测研究中,实验表明,文中算法分类结果更优.