摘要
中文叙事性文本的命名实体识别往往受限于中文的一词多义性和上下文结合不充分,难以在识别人名、地名、机构名的同时,将普通名词、数词、介词、方位词也作为特殊的实体进行识别。针对这一问题,本研究对少量叙事性文本语料进行人工标注后,采取基于同类实体随机替换的数据增强方法,扩大了训练数据集,又考虑到分词对正确识别实体边界的帮助,搭建了BBWC(BERT-BiLSTM+WS-CRF)的中文命名实体识别模型,在测试集中提取出相应实体和实体数量及位置信息。实验结果表明,该命名实体识别模型,在小说、寓言、童话这三个中文叙事性文本数据集上分别获得了90.07%、90.25%和89.31%的F1值,相较于几种基线模型有明显提升,验证了该方法在不使用额外特征且数据集不充分条件下进行中文叙事性文本命名实体识别的有效性。
-
单位广东电网有限责任公司; 广州供电局