摘要
利用交通轨迹挖掘人类活动规律是实现智慧城市与生活的基础,然而常规方法已无法满足高效处理的大数据量要求。以海量出租车轨迹数据分析为例,设计了基于Spark平台的城市居民出行时空特征快速提取方法。借助Spark分布式计算框架,将核心算子匹配应用于二次排序、数据清洗及O/D点提取等预处理工作,并在时间分割和网格剖分统计的基础上完成时空特征提取。利用2014年8月份成都市出租车轨迹数据开展实验验证,结果表明,相较于传统单机环境,在确保准确性的基础上,该方法能够大幅提高特征提取的效率;集群节点一定时,数据规模越大优势越明显;数据规模足够大时,Spark集群节点数量越多,耗时越少。
-
单位信息工程大学