摘要

针对目前符号数据的分类性能较低,通过挖掘属性值与标签之间可能存在的空间结构关系,提出了一种基于空间相关性分析的符号数据分类方法。该方法首先采用独热编码的方式对符号数据进行特征扩容,然后基于互信息和条件熵信息度量方法,定义了一种符号数据空间关系表示方法。在此基础上,分别结合支持向量机(support vector machine,SVM)和K-最近邻(K-nearest neighbor,KNN)模型分类器,提出了基于空间相关性分析的SVM分类算法(SVM classification algorithm based on space correlation analysis,SCASVM)和基于空间相关性分析的KNN分类算法(KNN classification algorithm based on space correlation analysis,SCAKNN)两种分类算法。该方法既能够体现出属性值与标签之间的关联关系,也可以有效地度量不同属性值之间的距离或差异性。在标准UCI数据集上的实验结果表明,该方法在分类性能上更加有效。