摘要
针对现有算法在处理海量数据集时处理效率低的问题,提出一种基于邻域搜索的在线特征选择(neighborhood search for online feature selection, NSOFS)并行大数据分类方法.在Map阶段,将大数据集进行分块,针对动态未知特征空间,通过萤火虫算法和模拟退火算法的优化,对于在线特征进行邻域搜索,选择最佳特征集,将获得的特征集作为Reduce阶段输入特征,然后使用内核支持向量机(Kernel Support Vector Machine, KSVM)对数据分类.实验结果表明:所提方法在精确率、召回率、F值和时间等性能方面优于其他现有方法.
-
单位信阳农林学院