摘要
经典的流形学习算法假设样本数据位于高维单流形上,但在现实生活中的真实数据通常位于高维多流形上,且这些数据往往相互交叠,导致流形学习算法效果不佳。传统的标签传播算法通过相似性矩阵构建连接矩阵,实现良好分离数据的聚类,但不能有效聚类相互交叠的多流形数据。针对该问题,提出一种面向相交多流形的标签传播算法LPAMMC。采用局部主成分分析算法确定相交多流形数据的相交区域,并基于混合概率主成分分析(MPPCA)模型和多流形的拓扑结构划分相互交叠的子流形,构建“must-link”和“cannot-link”聚类约束,通过约束构建适合相交多流形数据的传播矩阵,实现标签传播算法。LPAMMC算法通过MPPCA模型和多流形拓扑结构划分出子流形,提高相交多流形数据的聚类精度,且MPPCA模型仅用于多流形数据的相交区域,降低了计算复杂度。实验结果表明,LPAMMC算法不仅具有标签传播算法速度快的特点,且能有效聚类相交多流形数据。在Two spirals数据集上的聚类精度、标准互信息和调整兰德系数取得了与SMMC算法相同的性能,运行时间缩短86.7个百分点。