摘要
剔除重复数据是保证网络高效运行不可缺少的步骤,但该过程易受信号强度、网络装置、路由器性能等问题的干扰。为此,提出基于最小哈希的网络单信道重复数据剔除算法。首先利用哈希算法中的散列函数对网络单信道数据实行聚类处理,然后采用带有监督判别的投影算法对聚类后的数据进行降维处理,最后采用代数签名预估数据,保证数据之间的计算开销最小,再构造最小哈希树生成校验值,在更新去重标签的同时,通过双层剔除机制完全剔除单信道中的重复数据。实验结果表明,该算法的执行时间短,且计算和存储开销较小。
-
单位华中科技大学同济医学院; 河南科技大学