摘要
该文选用藏文词和藏文音节作为模型的输入特征,基于多层感知机(MLP)和深度可分离卷积(SepCNN)两种神经网络模型和K近邻(KNN)、高斯贝叶斯(Gaussian NB)两种浅层机器学习模型算法在三种不同数据集上实现藏文文本分类。实验结果表明,KNN和Gaussian NB需经过多层特征算法提取最优特征才能达到较高的分类精度,MLP则无需进行繁杂的特征工程亦能达到同等程度的分类精度;针对不同数据集,数据较均衡的实验语料利于模型学习和提取出更具表达力的特征,提升模型的分类效果;MLP和SepCNN两种模型的泛化性能更强;基于词和音节两种粒度下的n-gram混合特征较单一特征在模型验证中分类准确率有所提升。
- 单位