基于互信息属性排序的不完整数据聚类算法

钱晓东<sup>*</sup>; 罗彦福

doi:10.13976/j.cnki.xk.2019.7765

摘要

数据缺失对聚类算法提出了挑战,传统方法往往采用均值或回归方法将不完整数据进行填充,再对填充后的数据进行聚类.为解决均值填充和回归填充等方法在数据缺失比率增大时填充精度以及聚类效果变差的问题,提出一种新的不完整数据相似度计算方法.以期望互信息为依据对数据集中的属性排序,充分考虑了数据集中与位置相关的属性值特征,以数据集本身元素作为缺失值填充的来源,对排序后的不完整数据集进行相似度填充计算,最后采用基于局部密度的聚类算法进行聚类.利用UCI机器学习库中的数据集验证本文填充聚类算法,实验结果表明,当数据集中缺失值增多时,算法对缺失值的容忍性较好,对缺失元素的恢复能力较强,填充精度以及最终聚类结果方面均表现良好.本文填充计算相似度的方法考虑数据集的每个属性值来对缺失值逐个填充,因而耗时较多.

单位
兰州交通大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-11 13:38

基于互信息属性排序的不完整数据聚类算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友