摘要
K-means算法以其简单性和快速性在文本聚类中得到广泛应用,但是传统的K-means算法对初值的依赖性很强,需要事先给出要生成的簇的数目k,而这个参数k的确定一般是根据用户的经验知识给出的;另外,其初始聚类中心是随机选取的,这种随机性往往导致聚类结果的不稳定。可以说,不同的k值和不同的初始聚类中心对聚类质量和时间效率造成的影响是很大的。实验对改进K-means算法的有效性进行了验证,结果证明,改进K-means算法能有效地解决传统K-means算法的随机性所产生的聚类效果不稳定的问题,其时间复杂度也有所降低。
- 单位