基于类别信息和特征熵的文本特征权重计算

作者:阿力木江·艾沙; 殷晓雨; 库尔班·吾布力; 李喆
来源:计算机应用研究, 2019, 36(11): 3237-3285.
DOI:10.19734/j.issn.1001-3695.2018.05.0294

摘要

基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F1值。

全文