基于CRF模型的维吾尔语分词研究

作者:李成华; 孙雅婧*; 张世娟; 艾提日也古丽·艾尼瓦尔
来源:中南民族大学学报(自然科学版), 2019, 38(04): 596-604.

摘要

条件随机场能够很好地处理序列标注问题.引入条件随机场进行维吾尔语分词方法研究,主要包括制定词性和分词单独标注与一体化标注集并建成语料库;设计不同特征模板进行训练测试,反复比较实验结果,总结优化以获取最佳的特征模板.在设计特征模板时充分结合维吾尔语语言形态特征,采用了对称特征组合非对称特征的设计方法,并将获得的最佳分词模板应用到分步预测词性和分词实验中.相比单独分词标注,分词时加入词性特征列进行分词与词性一体化标注能展现更优的分词性能.