摘要

网络环境中海量数据具有明显复杂度,存在着大量结构化、半结构化和非结构化的数据,数据块长度与位置易产生较高相似性。当前已有的相似性数据识别属于密集任务型方法,会占用大量的内存空间。为了进一步提高数据利用率,降低数据冗余度,提出基于有序聚类方程的数据相似性识别建模仿真的方法。利用小波技术和重复数据删除技术对网络数据降噪,通过预设数据集中心,完成网络数据特征向量的优化提取。基于此,从时间、空间双维度分析特征向量的相似度,以点云分类网络和有序聚类方程为基础,构建数据相似性识别模型。实验结果表明,利用研究方法识别数据相似性时,其归一化互信息值为0.12,说明上述方法的准确度较高,针对不同规模的待识别数据,研究方法可在0.6s之内完成全部数据相似性的识别。以上实验所得数据证明了该方法具有较高的应用准确率和效率。

  • 单位
    黑龙江工业学院