摘要

通过收集南通市市区公交线路名称和站点名称,在不依赖GPS定位数据的基础上,采用Canopy和K-means聚类算法分析乘客上车时间序列,从而建立乘客上车站点的理论模型,并在Hadoop平台上用MapReduce框架实现算法的并行化。最后,以南通公交IC刷卡记录为例,用Canopy算法和K-means算法对IC卡刷卡记录进行分析。实验表明,在Hadoop平台,用Canopy和K-means算法分析公交IC卡数据运行稳定、可靠,具有很好的聚类效果。

  • 单位
    南通科技职业学院