藏文紧缩格识别方法

作者:拉玛扎西; 才智杰*; 扎西吉
来源:计算机应用研究, 2019, 36(04): 1080-1083.
DOI:10.19734/j.issn.1001-3695.2017.11.0747

摘要

分词是自然语言处理的一项基础性工作,对自然语言处理的后继工作有较大的影响。紧缩格的识别是藏文分词中最难、最重要的技术之一。通过剖析已有藏文紧缩词识别方法,分析藏文字词的特征,针对性地提出了识别藏文紧缩格的规则算法、添加—还原算法和最大熵模型的特征模板,从而得到基于规则、添加还原法与最大熵模型相结合的藏文紧缩格识别方法。实验数据表明,该方法识别藏文紧缩格的准确率、召回率和F1值分别达99. 26%、96. 47%、97. 85%,比现有最高的准确率有了较明显的提高。

全文