摘要
材料领域的文献中蕴含着丰富的知识,利用机器学习和自然语言处理等手段对文献进行数据挖掘是研究热点.命名实体识别(named entity recognition,NER)是高效利用挖掘和抽取数据中信息的首要步骤.为了解决现有实体识别方法中存在的向量表示无法解决一词多义、模型常提取上下文特征而忽略全局特征等问题,提出了一种基于上下文词汇匹配和图卷积命名实体识别方法.该方法首先利用XLNet获取文本的上下文动态特征,其次利用长短期记忆网络并结合文本上下文匹配词汇的图卷积神经网络(graph convolutional network,GCN)模型分别获取上下文特征与全局特征,最终经过条件随机场输出标签序列.2种不同语料对模型进行验证的结果表明,该方法在材料数据集上的精确率、召回率和F1值分别达到90.05%、88.67%和89.36%,可有效提升命名实体识别的准确率.
-
单位上海大学; 之江实验室