摘要
从日志数据采集、存储、分析等层面研究分布式计算技术在网络日志分析中的应用。通过Flume采集海量网络日志,利用Spark并行计算及Spark Streaming流式计算技术搭建了网络日志分析平台。平台针对大数据在批量处理和实时计算时存在的问题提出优化的架构方式,解决了冲突问题。经实验表明,该平台能对大数据级别的网络日志进行实时与批量分析,而且具有高吞吐能力、高扩展性、高容错性的特点,符合设计目标。
-
单位上海市质量监督检验技术研究院