摘要

针对定性数据环境下分类精度低且计算成本高的问题,提出了一种利用传统分类器和不同映射技术来提高类别可分性的分类变量识别方法。通过将初始特征(分类属性)映射到实数域空间,利用卡方距离(C-S)作为差异性的度量,增加特征空间的维数以提高类的可分性。运用t-分布领域嵌入算法(t-SNE)将数据的维数降到2或3个特征,从而减少了学习方法的计算时间。通过在公共分类数据集上的实验证明,C-S映射和t-SNE在保证识别精度的同时,大大减少了识别任务的计算量。同时,当只将C-S映射应用于数据集时,类别的可分性得到了增强,从而显著地提高了学习算法的性能。

  • 单位
    陕西电子信息职业技术学院