摘要
针对 KNN文本分类方法中不考虑特征词关联的问题 ,提出一种改进方法 .这种方法基于对体现词和类别间相关程度的 CHI统计值分布的分析 ,应用向量聚合技术很好地解决了关联特征词的提取问题 .其特点在于 :聚合文本向量中相关联的特征词作为特征项 ,从而取代传统方法中一个特征词对应向量一维的做法 ,这样不但缩减了向量的维数 ,而且加强了特征项对文本分类的贡献 .实验表明该方法明显提高了分类的准确率和召回率 .
-
单位东北大学; 辽宁沈阳