电力时间序列的分布式索引算法

作者:吴裔; 郭棋林*; 陈颢天; 郭乃网
来源:哈尔滨理工大学学报, 2021, 26(06): 81-86.
DOI:10.15938/j.jhust.2021.06.011

摘要

时间序列的研究已经被应用到越来越多的领域中。越来越多的领域应用需要索引和分析海量的时间序列,代表性的比如金融,电力,生物信息等等。这类应用往往面临数以亿计的时间序列的处理,然后从中识别出一些隐藏的模式来。然而目前对时间序列的索引技术都是单机版本,需要用漫长的时间来对大量的时间序列进行索引,限制了时间序列分析的产出率。提出了一种基于Isax表达的分布式时间序列索引算法,并在Spark分布式计算框架下实现算法。首先,给出了基于Isax的分布式索引算法的朴素实现想法,指明了其存在的问题。然后提出一种先建立索引结构,再将时间序列哈希到相应叶子节点的分布式索引算法。最终,构建了一个完整的电力时间序列的近邻近似查询系统,再保证查询精确率的前提下大大提高了计算效率。并在实验数据集上证明了算法的正确性、高效性和可扩展性。

全文