摘要

时空聚类(spatial-temporal density based spatial clustering of applications with noise, ST-DBSCAN)算法只能处理固定属性的时空数据,且其人为设定阈值的方法具有较大随机性会导致聚类结果不理想。基于ST-DBSCAN算法存在的不足,提出了一种改进的多属性时空聚类算法。改进后的新算法采用绘制时空对象距离频数柱状图来设定自适应阈值,通过引入Gower相似系数、Dice相似系数与欧几里德距离来构建多属性相似度模型,计算多个事务对象之间属性特征的相似度大小,从而将ST-DBSCAN时空聚类算法扩展到更多属性的时空数据聚类分析中。以北京市计算机行业职位招聘信息数据进行实验仿真,实验结果表明,新提出的阈值设定方法可以有效识别部分低密度簇,提高聚类的准确性和有效性;改进后的算法具有较好的普适性与包容性,能对多属性的时空数据进行很好的聚类分析。