摘要
随着互联网数据的快速增长,针对如何对互联网数据进行有效的收集和分析,提出一种基于分布式平台的系统架构。该架构包括爬虫模块、Web模块以及分布式平台三大模块,其中爬虫模块负责数据的收集,Web模块负责简单任务的处理以及分析结果的可视化展示,分布式平台提供数据的存储以及复杂任务的计算功能,3个模块的结合为网络上海量数据的爬取、存储与分析提供了一个很好的解决方案。最后,针对社交网站新浪微博的应用案例验证了该分布式舆情分析系统架构的可用性。
- 单位
随着互联网数据的快速增长,针对如何对互联网数据进行有效的收集和分析,提出一种基于分布式平台的系统架构。该架构包括爬虫模块、Web模块以及分布式平台三大模块,其中爬虫模块负责数据的收集,Web模块负责简单任务的处理以及分析结果的可视化展示,分布式平台提供数据的存储以及复杂任务的计算功能,3个模块的结合为网络上海量数据的爬取、存储与分析提供了一个很好的解决方案。最后,针对社交网站新浪微博的应用案例验证了该分布式舆情分析系统架构的可用性。