摘要
针对传统的文本特征选择方法所选特征子集精度不高的问题,提出一种结合信息增益和萤火虫算法的特征选择方法。计算所有特征词的信息增益并按从高到低排序,在排序靠前的特征集合上利用萤火虫算法寻优搜索得到最优特征子集。为避免萤火虫算法求解速度慢和陷入局部最优,对步长因子α进行改进,使其动态更新。在KNN上的文本分类实验结果表明,萤火虫算法选择的特征子集与信息增益和遗传算法相比,具有更好的分类效果。
-
单位重庆邮电大学; 通信与信息工程学院