摘要

针对大数据环境下并行SVM(Support Vector Machine)算法存在子集分布偏差大,并行效率低以及过滤非支持向量不准确等问题,提出了基于相对熵和余弦相似度的并行SVM算法RC-PSVM(Parallel Support Vector Machine Algorithm Based on Relative Entropy and Cosine Similarity)。该算法首先提出基于相对熵的数据划分策略DPRE(Data Partitioning Based on Relative Entropy),平衡当前子集和原始数据集的相对熵,划分样本到适合的子集,降低了子集分布偏差;然后提出了基于余弦相似度的冗余层级检测策略CS-RLDS(Redundancy level detection strategy based on cosine similarity),计算相邻层局部SVM之间法向量的余弦相似度,比较设定的阈值与相似度,识别并停止冗余层级,提高了并行效率;最后提出非支持向量过滤策略NSVF(Non-Support Vector Filter),结合样本到多个局部支持向量模型决策边界的距离,计算支持向量相似度来识别非支持向量,解决了过滤非支持向量不准确的问题。实验表明,RC-PSVM算法的分类效果更佳,且在大数据下的运行效率更高。