摘要
本发明公开了一种在Spark#streaming平台下的序列片段频率计算方法,包括以下步骤:1)发送端缓存流式数据,当流式数据的缓存量达到预设值时,则对缓存的流式数据进行组织,再传输至接收端中;2)接收端启动若干线程,并使用其中一个线程进行数据的接收,再对接收到的数据进行缓存,同时通过其他线程进行数据的统计处理;3)将本次数据统计的结果与之前数据统计的结果进行相加求和,并将求和的结果作为当前已统计流式数据中待计算序列片段出现的频率,再对本批次处理的数据末尾进行复制,然后从缓存中取出下一批数据继续进行统计,直至完成所有数据统计为止,该方法能够在流式数据序列中快速统计需要的序列片段的出现频率。
- 单位