摘要

随着大数据的时代的到来,法律知识库所包含的数据越来越多。聚类分析作为数据分析的常见方法,对处理分析法律问题数据十分重要,为了使聚类更准确,本文对传统K-means算法准确率不理想且容易出现空簇的问题进行了改进,在初始点的选择上采用tf-idf值较高的数据作为初始点,并针对传统算法聚类结果容易出现的空簇问题提出了使用二分法解决。针对不同数量级的数据进行对比实验,结果表明改进后的算法可以对比传统算法的准确性提升5%以上。

  • 单位
    中国刑事警察学院