摘要

在大数据时代,绝大多数数据并非来自表面Web,多数需求数据是通过超链接互连的Web引擎。相反,宝贵的数据库通常存在于深层网络中,即隐藏的网络-在查询接口后端。自从众多应用程序,如垂直门户网站,需要深入的Web数据,各种爬行方法都是以最小(或接近最小)的成本收获深度Web数据源。在实践中,数据源通常返回前k个对应的值匹配。这使得详尽的数据收集难度增加:高排名的文件将被多次返回,而文件排名靠后的低排名文件出现可能性很小。文章将此问题分解为两个正交子问题,即基于查询和排序的偏差问题,并提出一个基于频率的爬行方法克服了排序偏差问题。方法是使用文档频率在指定范围内进行查询,避免搜索排名加上返回限制的影响,大大降低了爬行排名靠后的深层数据源挖掘。该方法在各种数据集上进行了广泛的测试与现有的两种方法相比,实验结果证明了文中的方法更加优越。

  • 单位
    安徽电子信息职业技术学院

全文