摘要
中文命名实体识别任务是指识别文本中具有特定意义的实体,一般由词向量层、特征提取层、输出层组成。论文考虑词向量的训练方法。目前广泛应用的CBOW、Skip-gram词向量训练模型是利用给定的词预测目标词出现的概率。由于语料库一般来源于百度百科、微博等结构化网站,其实体表达较为规范,导致其训练的词向量在表示简写实体时存在较大误差,从而影响命名实体识别精度。论文在给定词预测目标词的基础上,引入了实体标签信息,对有标签的字进一步进行分词细化标签,带标签的字在作为上下文时会进行全标签遮掩操作与部分标签遮掩操作,从而模拟简写的实际情况。将训练得到的词向量在简写实体较多的高中升学规划问题数据集上进行测试,实验结果显示简写实体识别准确率有较大提升,证明了模型针对简写实体表示的有效性。
- 单位