摘要

为了解决大数据流挖掘过程中无法迅速辨别序列滞后相关性,从而导致数据信息查询效率低的问题,提出一种基于邻域相似的大数据流滞后相关性挖掘方法。首先对大数据样本采取邻域相似度计算,找出其中每个序列的相似关联度,提升相同簇内任意点之间的相似性;其次通过邻域相似相关系数,建立滞后相关性模型,并把序列依照级数递增采取分层,算出各个层级中的滑动窗口覆盖度,然后通过计算层级的滑动窗口得到序列的参数值,最终得到大数据流序列的滞后相关性。通过仿真,结果表明,所提算法实用性极高,能够有效挖掘大数据流滞后相关性,并且在确保精准度的同时提升了运算速度。