摘要

针对藏文数据集稀少的问题,该文对TNCC数据集进行了数据增强,提出了基于少数民族语言预训练模型(CINO)、TextCNN和双向长短时记忆网络(BiLSTM)的多特征融合与多语言预训练的藏文文本分类模型(MFMLP)。模型将数据集的文本分词输入到CINO中,然后将提取到的全部特征分别经过TextCNN和BiLSTM通路以提取不同层次特征,将提取到的特征与CINO提取的[CLS]特征在融合层进行多特征融合,最终通过分类器实现分类。基于藏文数据集TNCC进行文本分类实验,结果表明相较于CINO模型,该文提出的算法对藏文文本类别的识别能力有一定的提高。