基于DBIRCH算法的Argo剖面数据聚类

作者:邬满; 张万桢*; 孙苗; 林森
来源:吉林大学学报(信息科学版), 2020, 38(05): 568-577.
DOI:10.19292/j.cnki.jdxxp.20200813.001

摘要

为解决实时分析处理的海洋Argo浮标剖面观测数据特有的数据密度较高、快速响应且需要识别任意形状簇等问题,提出了一种可通过单次扫描数据集进行有效处理的低复杂度聚类算法DBIRCH(Density-Based Balanced Iterative Reducing and Clustering Using Hierarchies)。该算法通过使用新引入的参数密度阈值修正因子,动态的更新限制CF(Clustering Feature)树生长的约束系数子空间阈值,同时结合密度关联思想在不同邻域内多次建立CF树且合并,最终以核心CF树子节点为聚类结果输出,避免了BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)算法对参数的过度依赖,同时因能处理任意形状簇从而提升了数据处理的整体鲁棒性,提高了处理Argo剖面监测数据的时效性和算法的整体吞吐速度。为测试算法的综合性能,使用真实Argo浮标剖面实时监测数据集,并根据不同的参数对算法做出多组对比实验,同时使用不同评价指标对算法从运行时间和聚类准确率上进行综合评估,从全局角度分析该算法在DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、BIRCH及DBIRCH 3种不同算法中综合聚类性能最优。实验结果表明,在3种算法中,BIRCH算法运算速度最快,但准确率最低; DBSCAN算法聚类性能高于BIRCH算法,但运算速度最慢;改进的DBIRCH算法运算效率略低于BIRCH算法,但聚类准确率最高。

全文