摘要

对云计算下多维数据缺失特征填补,可提高数据利用率。当前通过近邻规则对高维数据缺失进行填补时,利用关联规则实现数据项的分类完成缺失数据填补,并没有对数据进行去噪,缺失数据填补的精度低,且填补过程复杂。提出一种基于信息熵的多维数据缺失特征填补方法。对多维数据中特征信息比较丰富的区域进行确定,计算双边滤波函数空间域及频率域的权重;并把标准差代入双边滤波因子计算中,获得双边滤波因子值,同时法向移动多维数据中特征比较丰富的区域内数据点,获得去噪之后的数据,以达到降噪目的;利用信息熵法与评估指标间相关性研究结合,得到加权广义的信息熵,对数据相关性的权重系数进行计算,并用计算中的微小区间替换缺失数据;设置搜索数据特征相关性的步长,利用加权的广义信息熵第一次为全局最小值时的信息熵,小于等于初始集合中信息熵这一特征,确定缺失数据区间,实现简便高精度缺失数据的填补。仿真结果表明,该方法可实现高精度,低复杂度的缺失数据填补。

  • 单位
    天津商业大学宝德学院