摘要

支持向量机(Support vector machine,SVM)具有良好的学习泛化性能,但其学习效率随着训练样本数量的增加而显著降低,对于大规模训练集,采用标准优化方法的传统SVM面临着内存需求过大、执行速度慢等问题。为了缓解这个问题,由于不同的数据点对决策平面的贡献程度不同,本文通过模糊隶属度函数计算每个样本的隶属度,利用模糊隶属度评估每个样本的重要程度,从而将隶属度值低的样本进行约简。基于三种不同的模糊隶属度函数,分别提出了基于类中心距离、核目标对齐和中心核对齐模糊隶属度函数的SVM样本约简算法。在UCI和kaggle数据集上与传统的SVM和最近提出的NSSVM进行了大量的对比实验,实验结果验证了所提出的基于模糊隶属度函数的SVM样本约简算法在准确率、F-度量和Hinge损失这几个分类性能指标方面的优势。例如,基于中心核对齐模糊隶属度的SVM约简算法在diabetes数据集上取得了最高的准确率、F-度量和最小的Hinge损失。与SVM相比,准确率和F-度量分别提高了13.71%和9.55%,Hinge损失降低了3.28%;与NSSVM相比,准确率和F-度量分别提高了24.54%和9.38%,Hinge损失降低了21.54%。

全文