摘要
数据的完整性是数据可用性的重要维度。由于数据采集等过程中存在的问题,现实中的数据往往存在缺失。现有的聚类算法在面对不完整数据时一般采用忽略缺失或填补缺失的策略,但是当数据缺失属于非随机缺失时,这样的处理策略会导致聚类精度严重下降。当数据缺失属于非随机缺失时,数据缺失模式与缺失属性的取值相关,因此在不完整对象的相似度量中加入缺失模式相似的度量,提出了两种结合缺失模式的PCM(Possibilistic c-means)模糊聚类算法:最小化缺失模式距离之和的PatDistPCM算法和基于缺失模式聚类的PatCluPCM算法。在两个公开数据集上的实验证明,考虑缺失模式的模糊聚类PatDistPCM和PatCluPCM算法,在对存在非随机缺失的数据进行聚类时,能有效提高聚类结果的准确性。
-
单位解放军理工大学