摘要
在大数据时代下,如何利用多源异构数据中的互补信息来识别数据中的簇模式,是多视角聚类研究中的热点问题.然而,大多数现有的多视角聚类方法只在基于内容的特征表示上(如基于k-means的加权多视角聚类方法)或基于上下文的相似度表示上(如基于谱聚类的加权多视角聚类方法)学习和施加权重,未能同时考虑这两种表示以充分地表达出视角内部固有的信息.另外,大多数加权多视角聚类方法需要引入额外的参数以控制视角权重的分布,但是,在没有任何先验知识的前提下,很难人为选择出恰当的权重控制参数.针对上述问题,提出了一种双重加权的多视角聚类算法DWMVC.它通过互信息自动学习视角权重,并将这些权重施加到基于内容和基于上下文的多视角数据表示上,以便于充分利用两种数据表示下的视角互补信息.构造了一个基于信息瓶颈的目标函数,在压缩这两种数据表示的同时最大限度地保留着相关特征和相似度信息.最后,设计了一种顺序的优化方法,以保证模型收敛到局部最优解.在多种多视角数据集上的实验结果表明,该方法优于目前先进的单视角和多视角聚类方法.