摘要
随着互联网的不断发展,生活中的各种行为一直在产生大量数据。很多时候必须处理由于来自各种信息源或者从多方面描述事物的多视图数据,针对这种特殊数据的多视图学习方法研究应运而生。本文研究了多视图降维、多视图聚类以及多任务多视图聚类三个多视图学习问题,就现有的多视图学习方法不能充分利用单视图信息以及挖掘视图间的联系提出改进。首先,本文研究了半监督降维、混合结构降维以及多源多视图聚类算法,通过加入保留样本结构信息的混合结构,并引入差异惩罚改进了多视图半监督降维算法。半监督降维算法在获取各个视图的低维空间表示时并没有充分利用单视图信息,忽略了样本数据的潜在结构和局部结构。因此,引入保留样本结构信息的混合结构,以此减小样本数据降维后的信息损失。然后引入多源多视图学习问题中的差异惩罚来挖掘多视图的一致性,以此综合多个视图的低维空间表示。改进后的算法使降维后的样本低维表示的聚类性能提高。其次,研究了基于谱聚类的稀疏子空间聚类以及相关多视图聚类算法,本文通过把多视图数据映射到同一低维空间,并加入流形正则项来保留局部结构,以此来改进多视图稀疏子空间聚类算法。在原有的多视图稀疏子空间聚类算法上,通过分析多视图共享同一稀疏表示矩阵的特点,本文认为将多视图数据从原始的高维空间映射到潜在的同一低维空间,可以更好地挖掘视图间的特征联系。同时为了保留数据在原始特征空间的局部结构,加入流形正则项,再通过低维空间表示求取样本的稀疏表示,可以使样本的信息得到更好地体现。这一改进提升了多视图数据的聚类性能。最后,研究了多任务多视图聚类问题及其相关的多视图学习算法,通过引入增广视图和消除差异化最小约束来改进基于二分图的多任务多视图聚类算法。在原有的算法基础上,本文利用多视图存在一致的潜在聚类结构的特点,直接消除单个任务上的多视图聚类结构差异,用同一聚类指示矩阵代替各个视图上的聚类指示矩阵,强调视图间的一致性。再引入由多个视图联合生成的增广视图,利用增广视图丰富的结构信息来修正单个任务上的聚类指示矩阵,以弥补强调视图一致性带来的信息损失,进一步挖掘视图信息,提高学习性能。这一改进使多个任务的平均聚类性能提高。以上改进的算法在多个公开数据集上进行了充分有效的实验,以此证明算法改进的有效性。
- 单位