摘要

针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.

  • 单位
    中国人民解放军陆军工程大学