摘要

将车联网中高维的时空特征嵌入到低维的特征语义词袋是一种典型的聚类问题。谱聚类因其计算简单且有全局最优解的特点而备受关注,但是关于其聚类数目的研究工作相对较少。针对传统eigengap启发式方法无法适应于多噪声点和边界模糊数据集,导致聚簇过度分割的问题,提出了一种基于超图Markov链松弛的聚类学习方法(HS-MR算法)。该算法的基本思想是用Markov过程形式化描述超图并开始随机游走。在超图Markov链松弛过程中,通过随机转移矩阵P的t次幂和扩散映射找到数据集有意义的几何分布,然后提出基于互信息的目标函数进行聚类数目的自动收敛。实验结果表明,该算法在准确率上优于简单图谱聚类算法和标准超图谱聚类算法。