摘要
针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,因此提出一种基于Hadoop平台的并行k NN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行k NN的MapReduce程序来解决处理大批量数据时存在的问题。对并行k NN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行k NN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类。
-
单位贵州商学院