摘要
[目的/意义]文本向量化处理是文本挖掘、信息检索、情感分析等领域必须要经过的预处理过程,使节点向量包含丰富且有效的语义及结构信息是目前亟待解决的问题。[方法/过程]首先对科技政策类的文本特征进行分析,分别依照概念与概念间关系的分类体系,用BiLSTM-CRF算法和SVM分别实现对概念与概念关系进行自动标引,在特征工程同时融入基本特征和句法语义特征,在识别准确性和效率方面有显著提升。并提出结合推理知识的概念知识网络及进一步融合篇章结构的知识网络构建方法。[结果/结论]基于此知识网络模型,实现一种能够融合节点语义、拓扑结构以及类别标签信息的网络表示学习模型,能够充分挖掘并表示文本的语义及结构信息,并通过可视化和实验验证所提方法的有效性。
- 单位