摘要

观测点分类器(OPC)是一种最新的试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计了一款基于大数据的随机样本划分(RSP)的分布式观测点分类器(DOPC)。首先,在分布式计算环境下生成大数据的RSP数据块,并将其转换成弹性分布式数据集(RDD);之后,在RSP数据块上协同式地训练一组OPC,由于每个RSP数据块上的OPC独立训练,使其获得了高效的Spark可实现性;最后,在Spark框架下将在RSP数据块上协同训练的OPC集成为DOPC来对新样本进行类标签预测。在8个大数据集上,对Spark集群环境下实现的DOPC的可行性、合理性和有效性进行了实验验证,实验结果显示DOPC能够以更低的计算消耗获得比单机观测点分类器更高的测试精度,同时DOPC相比于Spark框架下实现的基于RSP模型的神经网络、决策树、朴素贝叶斯和近邻分类器,平均测试精度分别提高了1.7、0.2、12.1和1.9个百分点。良好的测试表现表明DOPC是一种高效低耗的处理大数据分类问题的有监督学习算法。