摘要

从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理解且分类效果不错的文本分类系统。

全文