摘要

深网作为网络数据的载体,其中包含了大量的网络数据,可为科学研究及挖掘应用提供优质的分析数据集。但非合作结构化深网数据亦是异构的,使得传统方法挖掘结果普遍存在着挖掘精度较低、挖掘时间较长、内存占用率较高等问题。提出基于分层抽样的深网重叠数据特征自动挖掘方法。通过对非合作结构化深网重叠数据进行分析,采用贝叶斯网络方法确定相应的标签,建立动态全局模式,在此模式下,利用元组分层抽样的方法对深网重叠数据特征进行分层抽样,实现对深网重叠数据特征自动挖掘。实验结果表明,所提方法挖掘精度较高、挖掘时间较短、内存占用率较低。