基于GaussianNB模型的藏文文本分类研究与实现

作者:苏慧婧; 群诺*; 贾宏云
来源:青海师范大学学报(自然科学版), 2019, 35(04): 1-54.
DOI:10.16229/j.cnki.issn1001-7542.2019.04.001

摘要

目前众多文本分类方法已经得到了广泛的应用,然而针对不同的语言结构,各分类方法的泛化能力也有差异,因此本文利用机器学习算法中的GaussianNB模型对藏文新闻类文本语料进行分类,检验该分类模型在藏文语言结构中具有良好的分类性能.分类过程中首先以一码元为文本特征,采用特征频度统计方法,形成特征值向量,然后对特征向量进行降维处理,最后通过分类实验结果,验证了该模型对藏文文本具有良好的分类效果.