摘要
模糊粗糙集可突破经典粗糙集仅能处理离散数据的局限,有效对连续型数值进行特征选择。然而,模糊粗糙集以对象为中心计算,时间复杂度高,难以处理高维和大规模数据。针对此,基于水平截集,提出一种不一致近邻加速策略。首先,该策略跟踪论域中每一对象的模糊近邻集,持续删减其中不影响计算的近邻;其次,若对象的不一致近邻删减至空,则删减该对象,该策略提高算法效率;同时,设计一种基于不一致近邻递减的属性重要度,可有效抑制冗余特征入选,可提升效率及分类精度。通过理论证明,所提出的加速策略及属性重要度,不影响属性入选的次序。基于上述分析,提出新的模糊粗糙集特征选择算法。通过9个UCI和scikit数据集进行验证,结果表明,所提出的算法效率优于现有代表性算法,不仅有效减少运行时间,并可取得较高的分类精度。相较对比算法,至少可减少9.44% 的运行时间,尤其在高维和大规模数据上,可减少61.01% ~ 99.54%的运行时间,在SVM和KNN的分类精度上最高分别提升11.20%和19.95%。
- 单位