摘要
[目的]针对藏文预训练知识缺少的现状,利用藏文音节和文档的构造关系,提出基于图卷积网络的藏文新闻文本分类方法。 [方法]首先基于音节-音节关系和音节-文档关系为藏文新闻语料库构建文本图,然后使用音节和文档的独热表示进行初始化,在训练集文档类别标签的监督下,使用图卷积网络联合学习音节和文档的嵌入,最后将文本分类问题转化为节点分类问题。 [结果]图卷积网络在藏文新闻正文文本分类任务上达到了70.44%的准确率,相比于基线模型高出8.96%—20.66%。在藏文新闻标题文本上达到了61.94%的准确率,比基线模型高出6.61%—26.05%。同时图卷积网络相比于引入预训练音节嵌入的SVM、CNN和少数民族语言预训练模型CINO在准确率上高出0.73%—15.1%,并且在正文上的准确率相比于word2vec+LSTM方法高出15.65%。 [局限]仍依赖于有标注数据集,但藏文的有监督文本相对稀缺,后续可尝试开发用于藏文文本分类的无监督图卷积网络框架。 [结论]本文设计三种对比实验说明了图卷积网络在藏文新闻文本分类任务上的有效性,有效解决藏文新闻文本信息杂乱的问题,有助于管理者对各类别藏文新闻文本数据进行挖掘。
- 单位