基于Hadoop平台的一种改进K-means文本聚类算法

作者:潘俊辉; 王辉; 张强; 王浩畅
来源:微型电脑应用, 2022, 38(01): 5-7.
DOI:10.3969/j.issn.1007-757X.2022.01.003

摘要

K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一。该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响。针对该缺点,通过引入属性权重提出了一种改进的K-means聚类算法,并在Hadoop平台加以实现,以更好体现改进算法的效率。通过实验进行了测试,表明所提出的改进算法在效率和精度方面均有所提高。

全文