摘要
聚类是一种非监督学习,以k-means为例,簇心的选取是个非常随机的过程,导致k值相同的情况下聚类的结果每次都不一样,又不好取个平均,所以聚类的好坏很难被评价出来。文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以向量空间点的形式展现出来,通过计算那些点距离比较近来将那些点聚成一个簇,簇的中心叫做簇心。一个好的聚类要保证簇内点的距离尽量的近,但簇与簇之间的点要尽量的远。通过对数字信息的聚类,使所代表的文本内容产生分类的结果,并能一定程度的保证文本聚类结果的精度。
-
单位山东青年政治学院