摘要
在对文本进行分类时,大量的冗余特征会增加计算复杂度并降低分类的精度,因此需要对特征进行降维。论文提出了一种类依赖(CD)特征选择算法,通过训练集计算出所有文档的关联值(DR),根据类别,分别计算出对应类的阈值(CT),依次提取出大于阈值的文档中的最大特征,得到了对应类的特征向量,以确保每个类别都有不同数量的特征。仿真结果表明,与IG-PSO和GA两种特征选择算法相比,CD特征选择算法根据类别选择特征子集,使得分类的准确率和F1指标得到提升。
-
单位昆明理工大学; 自动化学院