摘要

当今社会网络舆情对组织及个人具有越来越重要的影响。为了处理当前及未来社会面临的大量网络舆情信息,利用Hadoop与机器学习算法处理舆情文本为该领域热点问题。首先利用基础的SVM模型对舆情文本进行分类,观察分析后对SVM模型进行优化,在SVM处理效果一般的样本领域利用朴素贝叶斯模型进行分类。传统的分布式SVM模型主要有层叠分布式SVM、反馈分布式SVM、分组分布式SVM。通过对分布式SVM模型的深入研究,提出了基于数据量的混合反馈式分布式SVM,其能够动态地根据数据量判断需要的子节点数。最终通过实验证明了该模型的有效性,并以某明星的微博评论数据分类实例作为应用参考。