摘要
针对大多数特征选择算法未充分考虑数据的类不均匀分布、特征之间的相关性和不同参数对特征选择结果的影响等问题,提出一种基于邻域容差互信息和鲸鱼优化算法(WOA)的非平衡数据特征选择方法。首先,在不完备邻域决策系统中,针对二分类数据集和多分类数据集,基于上、下边界域定义两种非平衡数据的特征重要度;然后,为充分反映特征的决策能力和特征之间的相关性,构建邻域容差互信息;最后,通过将非平衡数据特征重要度和邻域容差互信息相结合,提出基于邻域容差互信息的非平衡数据特征选择(FSIDN)算法,该算法采用WOA获取特征选择算法中的最优参数,并引入非线性收敛因子和自适应惯性权重来改进WOA,以解决WOA易陷入局部最优的问题。在8个基准函数上进行实验,结果表明改进的WOA具有较好的优化性能;在13个二分类和4个多分类的非平衡数据集上进行特征选择实验,实验结果表明,与其他相关算法相比,所提算法能够有效地选择出具有良好分类性能的特征子集。
- 单位