摘要
属性约简(特征选择)作为数据预处理的重要环节,大多以属性依赖作为筛选属性子集的标准。设计了一种快速依赖计算方法 FDC,通过直接寻找基于相对正域的对象来计算依赖度,而不需要预先求出相对正域,相比传统方法在速度上有明显的性能提升。另外,改进鲸鱼优化算法(WOA)使其能够有效应用于粗糙集属性约简。结合上述两个方法,提出一种基于Spark的分布式粗糙集属性约简算法SP-WOFRST,并在两组人工合成的大数据集上与另一种基于Spark的粗糙集属性约简算法SP-RST进行对比实验。实验结果表明所提出的SP-WOFRST算法在精度和速度上均优于SP-RST。
- 单位