基于词向量和条件随机场的中文命名实体分类

作者:马孟铖; 杨晴雯; 艾斯卡尔·艾木都拉; 吐尔地·托合提*
来源:计算机工程与设计, 2020, 41(09): 2515-2522.
DOI:10.16208/j.issn1000-7024.2020.09.018

摘要

针对中文命名实体识别及分类问题,提出一种基于词向量聚类和条件随机场的方法。分析语料语言特点并选取统计特征,构建特征模板识别测试语料中的命名实体;利用词向量包含丰富语义信息这一特点,将训练集中的实体词向量聚类成一个个簇;通过比较每一个簇与已识别的测试集命名实体之间的相似度距离,实现中文命名实体的分类。实验结果表明,在该方法下所分8个类别中,命名实体分类的F1值最高达到93.04%,F1值的平均值达到了83.82%。

全文