摘要
通过对数据缺失特征进行检测实现信息资源的有效检测,能够保证大数据中用户所需信息的完整性和准确性,对用户所需信息资源的检测,需要计算出数据特征距离,分析分配缺失数据属性特征权重,完成信息资源的检测。传统方法定义约束容差集合差异度,计算出不完备数据特征集合内全部对象的总体相异程度,但忽略了分析分配缺失数据属性特征权重,导致检测精度偏低。提出基于遗传优化的大数据中用户所需信息资源检测方法。结合遗传优化思想估计用户所需信息均值和协方差矩阵,以用户所需信息的对数似然函数作为目标函数,通过已有缺失数据样本获得参数的相应约束条件,建立大数据中缺失数据估计模型,消除用户所需信息量纲的影响,计算出数据特征的距离,利用聚类分析分配缺失数据属性特征权重,完成大数据中用户所需信息资源检测。实验结果表明,所提方法具有较高的填补准确性,且可扩展性较强。
- 单位