摘要
众所周知,pSCAN算法的聚类结果会受到密度约束参数和相似度阈值参数的影响,如果用户所提供的聚类参数得到的聚类结果无法满足需求,那么用户可以通过实例簇来表达自己的聚类需求。针对实例簇表达聚类查询需求的问题,提出了一种实例簇驱动的图结构聚类参数计算算法。首先,分析了两个聚类参数对聚类结果的影响,并提取实例簇的相关子图。其次,对相关子图进行分析得到密度约束参数的可行区间,并根据当前密度约束参数和节点之间的结构相似度将实例簇内节点划分为核心节点和非核心节点。最后,依据节点划分结果计算出当前密度约束参数对应的最优相似度阈值参数,并在相关子图上对得到的参数进行验证和优化,直到得到满足实例簇需求的聚类参数。在真实数据集上进行了大量实验,结果表明所提的算法能够为用户实例簇返回一组有效参数,提出的改进算法ImPART比基本算法PART提升20%以上的运行速度,能够快速有效的为用户返回满足实例簇要求的最优聚类参数。
- 单位