文中对大数据聚类算法K-means算法及其优化进行研究,并主要针对确定聚类数目和初始中心给出了优化的算法。首先,利用平均误差平方和的指标来评估聚类结果的好坏,从而确定聚类的数目;其次,利用秩序化原始数据的方法进而实现有序选取初始中心;最终由结果分析看出,优化后算法相比于传统算法,聚类效果更好。