摘要

当前基于深度学习算法的文本分析更多聚焦于微博、评论和新闻头条为代表的舆情监测和情感分析等短文本信息处理,而针对各类政策文本、论文和专利全文的属性识别和长文本分类等相关研究较少,存在一定拓展空间。与传统的机器学习模型相比,深度学习在自然语言处理和文本特征提取方面具有显著优势,其可通过预训练语言模型降低特征工程的人工干预,从而在政策属性和政策工具识别等领域具有较好的应用前景。本文针对我国科技政策属性(引导型、强制型和鼓励型)的自动识别问题,导入当前流行的几种深度学习模型进行了对比分析。与此同时,本文还针对政策文本的取词长度、数据增强和文本信息量估算等关联计算问题也进行了理论解析,从而进一步丰富了深度学习模型在科学计量,尤其是科技政策文本分析领域的应用。理论和实证分析结果显示,经过基于EDA(Easy Data Augmentation)方法的文本数据增强之后,当前几种代表性的深度学习模型在面向较为抽象的科技政策属性识别问题上均显著提升了处理能力,其中EDA+Bi-LSTM-Attention的识别准确率超过88%,其他参与实验的深度学习模型(TextCNN、Bi-LSTM、RCNN、CapsNet和FastText等)在文本增强之后的平均识别率也超过了80%;但是,文本取词长度从500词增加到2000词对中文科技政策属性识别的效果提升不显著。本文的研究对于科技政策属性自动识别、中文长文本分类和政策工具识别等科技管理相关量化分析具有一定的启示意义和参考价值。

全文