基于Spark的网络日志分析平台研究与设计

作者:林宗缪; 郭先超; 裴雨清; 唐浩; 姚文勇
来源:自动化与仪器仪表, 2017, (11): 157-162.
DOI:10.14016/j.cnki.1001-9227.2017.11.157

摘要

从日志数据采集、存储、分析等层面研究分布式计算技术在网络日志分析中的应用。通过Flume采集海量网络日志,利用Spark并行计算及Spark Streaming流式计算技术搭建了网络日志分析平台。平台针对大数据在批量处理和实时计算时存在的问题提出优化的架构方式,解决了冲突问题。经实验表明,该平台能对大数据级别的网络日志进行实时与批量分析,而且具有高吞吐能力、高扩展性、高容错性的特点,符合设计目标。

  • 单位
    上海市质量监督检验技术研究院

全文