摘要

设计并实现基于分布式平台的大数据分析处理系统,基于Spark平台用以处理大规模时间序列数据。系统框架主要分为存储层、算子层和算法层。在存储层,系统基于HDFS和Hive完成对大规模时间序列数据的组织和索引。在算子层,系统为用户提供了Spark平台上时间序列数据常用的基本操作,并允许用户直接使用这些算子实现自定义的时间序列相关处理算法。在算法层,系统实现Spark平台中一些常用的时间序列分析算法,包括时间序列相似度查询、聚类和预测,用户可以直接使用这些算法进行时间序列分析。通过对系统性能和功能的测试,验证了该系统的可行性和实用性。

  • 单位
    北京信息职业技术学院