摘要

针对传统数据挖掘过程中聚类结果波动较大、聚类纯度低的问题,提出了基于改进K-means算法的大数据精准挖掘技术。先将提取到的数据模型转换为数学语言,采用自动编码器优化数据特征,再计算数据集的相似程度,然后选择度量公式,指定聚类数量,经多次计算得出最优解。利用改进K-means算法,获取数据集中局部密度值最大的点作为聚类中心点。计算出数据样本的欧氏距离后,经过多次迭代得到聚类结果。比较改进K-means算法与3种传统算法在数据挖掘中的应用效果。实验结果表明,改进K-means算法的结果曲线波动幅度小,聚类纯度明显高于传统算法。