基于统计词典和特征加强的多语言文本分类

作者:龚静; 李英杰; 黄欣阳
来源:西南师范大学学报(自然科学版), 2018, 43(09): 45-50.
DOI:10.13718/j.cnki.xsxb.2018.09.008

摘要

在统计双语词典的基础上,提出一种特征加强的多语言文本分类方法.在执行文本分类时,考虑到其他语言的训练文本,使得多种语言的文本集合中均存在训练文本,放松了MLTC的要求.特征加强是一种交叉检查过程,即获取两种语言所有特征的卡方统计后,通过语言中相关特征的辨识力,再次对语言的特征辨识力进行评估,以提高分类的可信度.实验选择汉语或英语作为目标语言.实验结果表明:提出的方法具有更高的分类精度,且对训练集规格的敏感度更低.

全文