摘要

现如今互联网成为了传播信息的主要平台,人们使用关键词在海量的文档中快速获取想要的信息.这要求论文文献有明确的分类和标签.传统的文献分类方法通常提取关键词或关键句,利用文本的局部信息进行分析,对于方向相似的科技论文,传统的局部分析的方法区分度不高,分类不够明确易产生混淆.本文提出了一种对文献进行全局分析,自动生成标签的长文分类方法.为了降低卷积神经网络(Convolutional Neural Network,CNN)的深度,同时通过遍历全文捕获全局信息,本文提出了随机抽样算法将文献拆分为多个部分.然后,结合卷积神经网络和长短期记忆网络(Long Short-Term Memory,LSTM),提取各部分的局部特征,记忆各部分特征的相关性,得出分类结果.实验结果表明,与基于局部分析的文本分类方法相比,本文提出的长文分类方法能够更准确地区分方向相似的长文文献.