摘要
随着定位技术的广泛使用,产生了以轨迹流形式收集的海量时空数据,如何从中挖掘有用的信息得到越来越多学者的关注。从轨迹流中挖掘伴随模式指在同一时间内发现具有高度相似行为的群体,对于交通管理、推荐系统的实时应用至关重要。然而,现有的研究只达到秒级响应,面对大规模轨迹数据难以在毫秒级的时间内快速响应。因此,提出了分布式轨迹流挖掘框架DCPFS。框架的主要模块包括:1)为了减少基于密度的聚类算法DBSCAN由于大规模数据带来的大量时间消耗,研究基于分布式部署方案,设计了数据分区策略和聚类合并算法,确保聚类的并行性及准确性;2)由于现实中轨迹移动具有方向性,在聚类阶段增加方向维度以减少冗余聚类;3)鉴于模式挖掘阶段涉及对聚类结果的交叉,设计了并行交叉算法来提高挖掘效率;4)基于Flink分布式大数据流处理平台实现了DCPFS。以成都市出租车GPS数据集和谷歌生活数据集为例进行实验,验证了所提框架比基准方法具有更快的响应速度。
-
单位华东政法大学; 桂林电子科技大学