面向大规模医疗文本挖掘的中文分词和命名实体识别系统

作者:顾东晓; 周晨; 王晓玉; 赵树平; 杨雪洁; 苏凯翔; 赵旺; 姚晗
来源:2020-07-31, 中国, ZL202010755373.5.

摘要

本发明提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,涉及数据处理技术领域。本发明首先构建词典;基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果中的歧义集;基于CRF模型对歧义集再次分词;基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM-CRF模型中,通过叠层BiLSTM-CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM-CRF模型第二层对输入特征集进行复杂命名实体识别。本发明有效解决了提出了基于词典的CRF分词,利用CRF实现自动消除歧义,改善歧义词的分词效果,提高了叠层BiLSTM-CRF模型输入词向量的准确度,从而降低引入分词错误,实现提高命名实体识别的准确率。