摘要
为解决K-modes算法初始化k簇时误差率较高和KNN (K最近邻算法)算法面对大样本数据量时分类不准确的现状,分析传统的K-modes算法从k簇的初始化到簇中心不再变化的全过程和KNN (K最近邻算法)算法在面对大样本数据时执行效率低下的问题,提出改进的K-modes-KNN算法。使用字符串核函数初始化k簇,字符串核函数迭代计算样本到簇中心的距离来动态改变簇中心,利用改进的K-modes算法将数据集进行分簇处理后,在每个子簇中建立KNN (K最近邻算法)分类模型。通过真实数据验证了所提算法在一定程度上优于同种分类算法。
- 单位