维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法

作者:如先姑力·阿布都热西提; 亚森·艾则孜*; 艾山·吾买尔; 阿力木江·艾沙
来源:计算机应用研究, 2019, 36(03): 925-929.
DOI:10.19734/j.issn.1001-3695.2017.10.0940

摘要

针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法。首先,将论坛文本进行预处理以删除无用词,并基于N-gram统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本。在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性。