摘要

针对当前算法存在集成准确率较低,无法确定参与集成学习的电子商务信息特征向量数目的问题,提出一种基于改进K-means聚类算法的电子商务信息集成算法,该算法分析了海量异构电子商务信息的互信息特征及其相关度函数,并根据计算得到的相关度值大小对电子商务信息特征向量进行排序;按照最大相关度对应的电子商务信息特征向量对原始数据集进行分组,实现了电子商务信息最优特征向量子集选取以及电子商务信息最优特征向量数目的确定;采用随机抽样的方法将海量异构电子商务信息样本划分为小工作集进行K-means聚类,并计算剩余的电子商务信息聚类样本和得到的新聚类结果之间的相似度,与已经计算获得的随机采样结果进行相似度比对,得到最终聚类结果,完成集成学习。实验结果表明,所提算法能够实现高准确率集成学习,在平均准确率指标上可以提高0.3个百分点,确定了取得最优集成性能时,参与集成学习的电子商务信息特征向量的数量范围。

  • 单位
    宿州职业技术学院