摘要
网络舆情对维护社会和谐稳定、推动政务透明等方面具有重要作用,但随着网络舆情快速发展,小问题引爆的舆论事件不断发生,给社会带来严重负面影响,严重威胁国家安全,为此,本文提出构建基于大数据挖掘的网络舆情智能分析系统,系统利用主题爬虫技术采集舆情数据,采用文本过滤方法将相似数据进行合并,并利用向量空间模型、概率模型等对特征舆情文档进行特征抽取,运用HDFS分布式文件系统存储非结构化的舆情数据,并用大数据、MapReduce等技术对舆情数据分析挖掘,实现了舆情信息自动采集、分布式预处理、舆情智能分析挖掘、舆情发现等功能,对快速准确从海量信息中分析、发现热点舆情、提高舆情信息处理效率及质量等具有重要意义。
- 单位